这里只介绍如何使用,不介绍原理(想要了解原理的看这里)
1.下载Word2Vec(Java版地址)
2.根据自己情况准备语料库(搜狗2012全网新闻数据)
3.处理语料库。
以搜狗2012全网新闻数据为例:
(1)首先处理掉HTML标签并转为utf8编码格式:cat news_tensite_xml.dat | iconv -f gb18030 -t utf-8 -c | grep "<content>" > corpus.txt
(2)进行分词处理,这里使用的ANSJ(jar包下载地址):
public class Test {
public static final String TAG_START_CONTENT = "<content>";
public static final String TAG_END_CONTENT = "</content>";
public static void