java调用word2vec模型_word2vec使用過程（Java版）

最新推荐文章于 2024-06-28 19:39:46 发布

许传志

最新推荐文章于 2024-06-28 19:39:46 发布

阅读量247

点赞数

文章标签： java调用word2vec模型

本文链接：https://blog.csdn.net/weixin_32790385/article/details/114741810

版权

這里只介紹如何使用，不介紹原理(想要了解原理的看這里)

1.下載Word2Vec(Java版地址)

2.根據自己情況准備語料庫(搜狗2012全網新聞數據)

3.處理語料庫。

以搜狗2012全網新聞數據為例：

(1)首先處理掉HTML標簽並轉為utf8編碼格式：cat news_tensite_xml.dat | iconv -f gb18030 -t utf-8 -c | grep "" > corpus.txt

(2)進行分詞處理，這里使用的ANSJ(jar包下載地址)：public class Test {

public static final String TAG_START_CONTENT = "";

public static final String TAG_END_CONTENT = "";

public static void main(String[] args) {

String temp = null ;

BufferedReader reader = null;

PrintWriter pw = null;

System.out.println("開始分詞...");

try {

//分詞之前的文件路徑

File file = new File("C:/users/xxx/Desktop/xxx");

InputStreamReader read = new InputStreamReader(new FileInputStream(file), "UTF-8");

reader &

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注