官方网站:https://code.google.com/p/friso/
最新动态:friso-1.6.0发布了(2014.05.08 最新版本)
开源,简单易用,很适合分词技术的研究。
一。friso中文分词器
Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF-8/GBK编码的切分。
sam:关于mmsseg的理解见:http://blog.csdn.net/hzhsan/article/details/25270519
【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M。】
1。目前最高版本:friso 1.6.0,同时支持对UTF-8/GBK编码的切分。
2。mmseg四种过滤算法,分词准确率达到了98.41%,请参考本算法的原作:http://technology.chtsai.org/mmseg/。
3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。简体/繁体/简体混合支持, 可以方便的针对简体,繁体或者简繁体切分。同时还可以以此实现简繁体的相互检索。
5。支持中英/英中混合词的识别(维护词库可以识别任何一种组合)。例如:卡拉ok, 漂亮mm, c语言,IC卡,哆啦a梦。
7。很好的英文支持,英文标点组合词识别, 例如c++, c#, 电子邮件,网址,小数&#