SearchEngine
文章平均质量分 79
古韦
这个作者很懒,什么都没留下…
展开
-
ictclas4j进行中文分词
ICTCLAS是中科院计算所开发的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。下面是java版的例子。 纯Java版本的ICTCLAS(即ictclas4j),下载地址:http://pan.baidu.com/s/1jGGFXNS(这是0.9.1版的,官网经常打不开,这是我在百度云盘的分享)原创 2014-12-23 16:04:47 · 2378 阅读 · 0 评论 -
Paoding、mmseg4j、IK Analyzer添加自定义词典
1. 使用Paoding自定义词典 参考文章:http://blog.csdn.net/zhangt85/article/details/8067743 (1)首先自定义一个XXX.dic的文件,以utf-8保存,放到dic目录下任何地方都行; (2)删除.compile文件夹 有时候我们自定义词典的时候,发现不起作用,那么我们需要查看分词模式。 庖丁有两种分词模式: most-wor转载 2014-12-25 15:24:31 · 2242 阅读 · 0 评论