【文本分类】最强中文分词系统ICTCLAS

ICTCLAS中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98.45%,API不超过100kb,各种词典数据压缩后不到3M,是世界上最好的汉语词法分析器。


官方网站http://ictclas.org/ictclas_introduction.html

下载测试使用后发现windows64位编译时提示无法找到API函数,经测试无法使用,32Bit库下载后可以编译执行,调用成功。

原始语料:中华人民共和国,我们是党员

分词结果如下:
中华人民共和国/ns ,/w 我们/r 是/v 党员/n


ns:名称地名

w:标点符号

v:动词

n:名词

详细信息可参考API手册及汉语词性标注集合2个文档。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值