首先我想说,我正在从python工作到更复杂的代码。我现在正在使用Java,而且我非常新。我知道Java非常擅长多线程,这很好,因为我正在使用它来处理数TB的数据。
数据输入只是输入到一个迭代器中,我有一个类封装了一个运行函数,它从迭代器中取一行,做一些分析,然后将分析写入文件。线程必须共享的唯一信息是他们正在写入的对象的名称。简单的权利?我只想让每个线程同时执行run函数,这样我们就可以快速地遍历输入数据。在Python中,它会很简单。
from multiprocessing import Pool
f = open('someoutput.csv','w');
def run(x):
f.write(analyze(x))
p = Pool(8);
p.map(run,iterator_of_input_data);所以在Java中,我拥有10K行分析代码,并且可以非常轻松地遍历我的输入,并将其传递给我的运行函数,然后调用所有分析代码将其发送给输出对象。
public class cool {
...
public static void run(Input input,output) {
Analysis an = new Analysis(input,output);
}
public static void main(String args[]) throws Exception {
Iterator iterator = new Parser(File(input_file)).iterator();
File output = File(output_object);
while(iterator.hasNext(){
cool.run(iterator.next(),output);
}
}
}我想要做的就是获取多个线程,获取迭代器对象并执行run语句。一切都是独立的。我一直在看Java多线程的东西,但其通过网络交流,共享数据等。这是简单的,因为我认为它是?如果有人能够指引我走向正确的方向,我会很乐意做这项工作。
谢谢