java ikanalyzer分词_利用ikanalyzer分词

最新推荐文章于 2022-03-25 15:13:13 发布

周承轩

最新推荐文章于 2022-03-25 15:13:13 发布

阅读量628

点赞数

文章标签： java ikanalyzer分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32892145/article/details/114926247

版权

最近想研究一下word2vec，第一步是要搞个训练预料。看了看网上有人是用sogou labs提供的新闻语料进行研究的。但是我觉得可能单纯用新闻语料可能还不够吧。

所以就开始在网上找一些别的语料，后来找到了一个百度百科2012年的全部词条信息，是网友制作成词典供mdict使用的。二进制格式有5个多G，搞成utf-8文本后有13.3g，数据量还是蛮大的，应该足够word2vec的训练了。

由于是中文，还需要进行分词，尝试了一下用crf进行分词(据说是目前最先进的分词技术，据我所知，百度最新的分词工具，应该就是用crf的吧)的stanford-segmenter，发现速度太慢了。

在网上找了一下，准确和速度都还可以的分词库，最好找了ikanalyzer。这个其实是为lucence的一个切词库。不过，她也可以单独来使用。我研究了一下，觉得可能词库还够，所以就进行了一下扩充。

首先我用别的分词工具，对基本词进行了一个补充，加了一个normal_add.dic的词典，共增加了215,780(去重后)。另外从搜狗输入法的一些官方推荐的细胞词库中扒出了913,347的词形成sogou_scel.dic，另外再加了一些中文的停用词表stopword_zh.dic。

最终的配置文件如下：

1: <?xml version="1.0" encoding="UTF-8"?>

2:

3:

4: IK Analyzer 扩展配置

5: normal_add.dict;sogou_scel.dic;

6: stopword.dic;stopword_zh.dic;<

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java ikanalyzer分词_利用ikanalyzer分词

最近想研究一下word2vec，第一步是要搞个训练预料。看了看网上有人是用sogou labs提供的新闻语料进行研究的。但是我觉得可能单纯用新闻语料可能还不够吧。所以就开始在网上找一些别的语料，后来找到了一个百度百科2012年的全部词条信息，是网友制作成词典供mdict使用的。二进制格式有5个多G，搞成utf-8文本后有13.3g，数据量还是蛮大的，应该足够word2vec的训练了。由于是中文，还...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。