最近想研究一下word2vec,第一步是要搞个训练预料。看了看网上有人是用sogou labs提供的新闻语料进行研究的。但是我觉得可能单纯用新闻语料可能还不够吧。
所以就开始在网上找一些别的语料,后来找到了一个百度百科2012年的全部词条信息,是网友制作成词典供mdict使用的。二进制格式有5个多G,搞成utf-8文本后有13.3g,数据量还是蛮大的,应该足够word2vec的训练了。
由于是中文,还需要进行分词,尝试了一下用crf进行分词(据说是目前最先进的分词技术,据我所知,百度最新的分词工具,应该就是用crf的吧)的stanford-segmenter,发现速度太慢了。
在网上找了一下,准确和速度都还可以的分词库,最好找了ikanalyzer。这个其实是为lucence的一个切词库。不过,她也可以单独来使用。我研究了一下,觉得可能词库还够,所以就进行了一下扩充。
首先我用别的分词工具,对基本词进行了一个补充,加了一个normal_add.dic的词典,共增加了215,780(去重后)。另外从搜狗输入法的一些官方推荐的细胞词库中扒出了913,347的词形成sogou_scel.dic,另外再加了一些中文的停用词表stopword_zh.dic。
最终的配置文件如下:
1: <?xml version="1.0" encoding="UTF-8"?>
2:
3:
4: IK Analyzer 扩展配置
5: normal_add.dict;sogou_scel.dic;
6: stopword.dic;stopword_zh.dic;<