java ikanalyzer分词_利用ikanalyzer分词

最近想研究一下word2vec,第一步是要搞个训练预料。看了看网上有人是用sogou labs提供的新闻语料进行研究的。但是我觉得可能单纯用新闻语料可能还不够吧。

所以就开始在网上找一些别的语料,后来找到了一个百度百科2012年的全部词条信息,是网友制作成词典供mdict使用的。二进制格式有5个多G,搞成utf-8文本后有13.3g,数据量还是蛮大的,应该足够word2vec的训练了。

由于是中文,还需要进行分词,尝试了一下用crf进行分词(据说是目前最先进的分词技术,据我所知,百度最新的分词工具,应该就是用crf的吧)的stanford-segmenter,发现速度太慢了。

在网上找了一下,准确和速度都还可以的分词库,最好找了ikanalyzer。这个其实是为lucence的一个切词库。不过,她也可以单独来使用。我研究了一下,觉得可能词库还够,所以就进行了一下扩充。

首先我用别的分词工具,对基本词进行了一个补充,加了一个normal_add.dic的词典,共增加了215,780(去重后)。另外从搜狗输入法的一些官方推荐的细胞词库中扒出了913,347的词形成sogou_scel.dic,另外再加了一些中文的停用词表stopword_zh.dic。

最终的配置文件如下:

1: <?xml version="1.0" encoding="UTF-8"?>

2:

3:

4: IK Analyzer 扩展配置

5: normal_add.dict;sogou_scel.dic;

6: stopword.dic;stopword_zh.dic;<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值