本文的应用是stanford corenlp多线程的使用,在对数据进行分词、词性标注和命名实体识别的过程数据量较大,处理时间较长,单线程已经不能满足需求。
这个使用场景是,读取文本,每一行是一个json类型的字符串,需要将其中部分文本进行词性标注等处理,然后再写到新的一个文件中(**多线程读同一个文件,处理后,多线程写同一个文件**)
- java 使用corenlp
java中的多线程
下图所示是一个线程的生命周期,在java中可以通过三种方法来创建线程:
1 通过实现Runnable接口
2 通过继承Thread类本身
3 通过Callable 和Future创建线程
具体可以参照 http://www.runoob.com/java/java-multithreading.html
本文采用的是实现Runnable接口来实现ReadThread和WriterThread, 需要重写run方法。
ReadThread
需要注意的是我们的需求是,多线程按行读取同一文件,所以在多个线程应该共享的是同一个BufferReader,这样才能保证不重复读取。
另一需求是,我们需要将各个ReadThread处理好的结果交给WriterThread去写到同一文件,我们需要一个队列,读线程不断的往这个队列中去写文件,写线程从中读取然后写到文件中。
BlockingQueue
这在java多线程中起着重大的作用,结构如下图所示,它解决了多线程中的数据共享问题。假如我们有若干的生产者线程,又有若干的消费者线程,如果生产者把准备好的数据共享给消费者,就可以利用该队列来传递数据。在本文的场景下,就是读线程把分词和词性标注好的数据交给写线程去写到文件中。