NLPIR 分词准确率接近98.23%

http://www.nlpir.org/

几个例子:
为人民办公益
为/p
人民/n
办/v
公益/n


独立自主和平等互利的原则
独立自主/vl
和/cc
平等互利/vl
的/ude1
原则/n


结婚的和尚未结婚的
结婚/vi
的/ude1
和/cc
尚未/d
结婚/vi
的/ude1


北京大学生前来应聘
北京/ns
大学生/n
前来/vi
应聘/vi


然并卵
然/rz
并/cc
卵/n


他说的确实在理
他/rr
说/v
的/ude1
确实/ad
在理/a



scws的测试结果:
postgres=#  SELECT to_tsvector('testzhcfg','独立自主和平等互利的原则');
                   to_tsvector                    
--------------------------------------------------
 '原则':5 '和':2 '平等互利':3 '独立自主':1 '的':4
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','结婚的和尚未结婚的');
             to_tsvector             
-------------------------------------
 '和':3 '尚未':4 '的':2,6 '结婚':1,5
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','北京大学生前来应聘');
              to_tsvector              
---------------------------------------
 '前来':3 '北京':1 '大学生':2 '应聘':4
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','为人民办公益');
           to_tsvector           
---------------------------------
 '为人':1 '办公':3 '民':2 '益':4
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','然并卵');
     to_tsvector      
----------------------
 '卵':3 '并':2 '然':1
(1 row)
postgres=#  SELECT to_tsvector('testzhcfg','他说的确实在理');
              to_tsvector               
----------------------------------------
 '他':1 '在理':5 '的':3 '确实':4 '说':2
(1 row)

NLPIR/ICTCLAS中英文一体化分词可视化效果图
NLPIR 分词准确率接近98.23 - 德哥@Digoal - PostgreSQL research
  NLPIR/ICTCLAS分词系统可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。在分词的同时,还会发现新词。本系统还支持在线用户词典的输入,用户可以在右下方添加用户词及词性,如“中东呼吸综合征 bing”。NLPIR/ICTCLAS分词系统,采用层叠隐马模型
(算法细节请参照:张华平,高凯,黄河燕,赵燕平,《大数据搜索与挖掘》科学出版社。2014.5 ISBN:978-7-03-040318-6),分词准确率接近98.23%,具备准确率高、速度快、可适应性强等优势。它能够真正理解中文,利用机器学习的方式解决歧义切分与词性标注歧义问题。

相关产品

[参考]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值