SkyLightAnalyzer（天亮分词器）小结

最新推荐文章于 2020-11-21 17:19:24 发布

周天亮

最新推荐文章于 2020-11-21 17:19:24 发布

阅读量729

点赞数

文章标签： java 中文分词器算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/erliang20088/article/details/45790151

版权

一直以来想写个自己的中文分词器，从2013年5月份写了基于二分插入、双数组算法实现的中文粗分词，之后由于各种原因未能进一步完善达到一个标准分词器的水准，自上周从公司离职后，历经一周的努力，并在ansj分词的辅助参考下，终于取得了不错的突破，希望有对这块感兴趣的同学可以在此互相交流。

现在分词达到的基本要求是：

1、基于双数组结构实现的机械分词

2、词条删除与增加、以及对已有词条的缓存读写。

3、词意消歧的处理，包括n-gram和词性的总词频数的两个因子，效果已达到。

4、词性标注在词意消歧的基础上，用viterbi算法取最优路径，达到预定效果。

5、分词准确率约为94%以上，分词速率为50万字/秒，暂味在此着重优化，还有很大提升空间，到100万字是肯定有把握的。

6、新词发现放于下阶段去实现。

有想法的同学可以和我联系，我也会不定期的将开源版本放到 http://github.com/erliang20088。

下一段会写将SkyLightAnalyzer分词器放到最新版的Lucene4.5中的接口设计与实现。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SkyLightAnalyzer（天亮分词器）小结

一直以来想写个自己的中文分词器，从2013年5月份写了基于二分插入、双数组算法实现的中文粗分词，之后由于各种原因未能进一步完善达到一个标准分词器的水准，自上周从公司离职后，历经一周的努力，并在ansj分词的辅助参考下，终于取得了不错的突破，希望有对这块感兴趣的同学可以在此互相交流。现在分词达到的基本要求是： 1、基于双数组结构实现的机械分词2、词条删除与增加、以及对已有
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。