這里只介紹如何使用,不介紹原理(想要了解原理的看這里)
1.下載Word2Vec(Java版地址)
2.根據自己情況准備語料庫(搜狗2012全網新聞數據)
3.處理語料庫。
以搜狗2012全網新聞數據為例:
(1)首先處理掉HTML標簽並轉為utf8編碼格式:cat news_tensite_xml.dat | iconv -f gb18030 -t utf-8 -c | grep "" > corpus.txt
(2)進行分詞處理,這里使用的ANSJ(jar包下載地址):public class Test {
public static final String TAG_START_CONTENT = "";
public static final String TAG_END_CONTENT = "";
public static void main(String[] args) {
String temp = null ;
BufferedReader reader = null;
PrintWriter pw = null;
System.out.println("開始分詞...");
try {
//分詞之前的文件路徑
File file = new File("C:/users/xxx/Desktop/xxx");
InputStreamReader read = new InputStreamReader(new FileInputStream(file), "UTF-8");
reader &