corenlp多线程使用

本文探讨了在Java和Python中如何使用CoreNLP进行多线程处理。在Java中,通过实现Runnable接口创建ReadThread和WriterThread,并利用BlockingQueue进行线程间的数据共享。Python中,虽然多线程不是真正的并行,但可以使用multiprocessing包实现多进程以充分利用CPU资源。在Python中,线程池(pool)提供了便捷的处理方式,只需定义处理函数并将结果返回。
摘要由CSDN通过智能技术生成
本文的应用是stanford corenlp多线程的使用,在对数据进行分词、词性标注和命名实体识别的过程数据量较大,处理时间较长,单线程已经不能满足需求。

这个使用场景是,读取文本,每一行是一个json类型的字符串,需要将其中部分文本进行词性标注等处理,然后再写到新的一个文件中(**多线程读同一个文件,处理后,多线程写同一个文件**)

- java 使用corenlp

java中的多线程

下图所示是一个线程的生命周期,在java中可以通过三种方法来创建线程:

1 通过实现Runnable接口
2 通过继承Thread类本身
3 通过Callable 和Future创建线程

具体可以参照 http://www.runoob.com/java/java-multithreading.html
这里写图片描述

本文采用的是实现Runnable接口来实现ReadThread和WriterThread, 需要重写run方法。

ReadThread
需要注意的是我们的需求是,多线程按行读取同一文件,所以在多个线程应该共享的是同一个BufferReader,这样才能保证不重复读取。

另一需求是,我们需要将各个ReadThread处理好的结果交给WriterThread去写到同一文件,我们需要一个队列,读线程不断的往这个队列中去写文件,写线程从中读取然后写到文件中。

BlockingQueue
这在java多线程中起着重大的作用,结构如下图所示,它解决了多线程中的数据共享问题。假如我们有若干的生产者线程,又有若干的消费者线程,如果生产者把准备好的数据共享给消费者,就可以利用该队列来传递数据。在本文的场景下,就是读线程把分词和词性标注好的数据交给写线程去写到文件中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值