robbe是建立在 friso 上的一款高性能中文分词组件, 分词准确率达98.4%, 简易模式分词速度: 3.1M/sec, 复杂模式: 1.4M/sec (Ubuntu/2G/双核的一般般的CPU)
friso-1.1来了:
1. 修复了一个可能会导致内存泄漏的bug. 更改了接口API, 解决需要调用程序需要自动释放内存的问题, 在friso_next内自动处理了, 详细可查看官方文档.
2. 加入了同义词切分功能, 实现同义词匹配. (需要在friso.ini中配置friso.add_syn=1)
3. 加入了停止词过滤功能, 新加入了lex-stopwords.lex词库, 专门存放停止词词库.
4. 对friso内部代码进行了优化, 加载全部词库只需13.xM内存, 而且切分速度也提高了. 简易模式可达: 3.1M/sec, 复杂模式也接近了1.5M/sec.
5. 重新整合了jcseg的词库, 加入了些许新词.
6. 同时兼容php5.3以下版本和php5.3以上版本(我用的5.4.16编译的). 很有网友发邮件要我编译一个vc9版本的, robbe-1.1同时提供了Linux共享文件, vc6版本的和vc9版本的.
7. 加入了CHANGES文档,在README文档中加入了测试配置说明.
感谢网友的关注和反馈.
本文转载自:开源中国新闻
欢迎加入我爱机器学习QQ14群:336582044
微信扫一扫,关注我爱机器学习公众号