http://www.nlpir.org/
几个例子:
为人民办公益
为/p
人民/n
办/v
公益/n
独立自主和平等互利的原则
独立自主/vl
和/cc
平等互利/vl
的/ude1
原则/n
结婚的和尚未结婚的
结婚/vi
的/ude1
和/cc
尚未/d
结婚/vi
的/ude1
北京大学生前来应聘
北京/ns
大学生/n
前来/vi
应聘/vi
然并卵
然/rz
并/cc
卵/n
他说的确实在理
他/rr
说/v
的/ude1
确实/ad
在理/a
scws的测试结果:
postgres=# SELECT to_tsvector('testzhcfg','独立自主和平等互利的原则');
to_tsvector
--------------------------------------------------
'原则':5 '和':2 '平等互利':3 '独立自主':1 '的':4
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','结婚的和尚未结婚的');
to_tsvector
-------------------------------------
'和':3 '尚未':4 '的':2,6 '结婚':1,5
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','北京大学生前来应聘');
to_tsvector
---------------------------------------
'前来':3 '北京':1 '大学生':2 '应聘':4
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','为人民办公益');
to_tsvector
---------------------------------
'为人':1 '办公':3 '民':2 '益':4
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','然并卵');
to_tsvector
----------------------
'卵':3 '并':2 '然':1
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','他说的确实在理');
to_tsvector
----------------------------------------
'他':1 '在理':5 '的':3 '确实':4 '说':2
(1 row)
NLPIR/ICTCLAS中英文一体化分词可视化效果图
![NLPIR 分词准确率接近98.23 - 德哥@Digoal - PostgreSQL research](http://img0.ph.126.net/kosmfAMpVKixVxCk-Ir-hg==/6631433903071265034.png)
NLPIR/ICTCLAS分词系统可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。在分词的同时,还会发现新词。本系统还支持在线用户词典的输入,用户可以在右下方添加用户词及词性,如“中东呼吸综合征 bing”。NLPIR/ICTCLAS分词系统,采用层叠隐马模型
(算法细节请参照:张华平,高凯,黄河燕,赵燕平,《大数据搜索与挖掘》科学出版社。2014.5 ISBN:978-7-03-040318-6),分词准确率接近98.23%,具备准确率高、速度快、可适应性强等优势。它能够真正理解中文,利用机器学习的方式解决歧义切分与词性标注歧义问题。
相关产品
[参考]