THULAC:一个高效的中文词法分析工具包

THULAC是由清华大学自然语言处理与社会人文计算实验室开发的中文词法分析工具,具备分词和词性标注功能。其特点包括准确性高,F1值分别达到97.3%(分词)和92.9%(词性标注),速度快,可处理大量文本。提供了C++、Java和Python版本,并有在线Demo供用户体验。
摘要由CSDN通过智能技术生成

THULAC:一个高效的中文词法分析工具包

项目官网:http://thulac.thunlp.org/

实验室官网:http://nlp.csai.tsinghua.edu.cn/site2/


THULAC 介绍

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:

能力强。

利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。

准确率高。

该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。

速度较快。

同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。


Demo

http://thulac.thunlp.org/demo


编译和安装

C++版

  在当前路径下运行
  make
  会在当前目录下得到 thulac 和 
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值