word2vec使用过程（Java版）

最新推荐文章于 2024-06-28 19:39:46 发布

acwa

最新推荐文章于 2024-06-28 19:39:46 发布

阅读量1w

点赞数 8

分类专栏：机器学习文章标签： word2vec 数据

本文链接：https://blog.csdn.net/acwa123/article/details/72626580

版权

本文介绍了使用Java版Word2Vec进行训练的步骤，包括下载工具、准备搜狗2012全网新闻数据作为语料库、处理语料（去除HTML标签、分词）、配置训练参数以避免内存溢出，以及训练完成后模型的使用。提供了一份已训练好的模型链接供参考。

摘要由CSDN通过智能技术生成

这里只介绍如何使用，不介绍原理（想要了解原理的看这里）

1.下载Word2Vec（Java版地址）

2.根据自己情况准备语料库（搜狗2012全网新闻数据）

3.处理语料库。
以搜狗2012全网新闻数据为例：
(1)首先处理掉HTML标签并转为utf8编码格式：cat news_tensite_xml.dat | iconv -f gb18030 -t utf-8 -c | grep "<content>" > corpus.txt
(2)进行分词处理，这里使用的ANSJ（jar包下载地址）：

public class Test {  
    public static final String TAG_START_CONTENT = "<content>";  
    public static final String TAG_END_CONTENT = "</content>";  

    public static void

最低0.47元/天解锁文章

acwa

关注

8
点赞
踩
31

收藏

觉得还不错? 一键收藏
8
评论
word2vec使用过程（Java版）

这里只介绍如何使用，不介绍原理（想要了解原理的看这里）1.下载Word2Vec（Java版地址）2.根据自己情况准备语料库（搜狗2012全网新闻数据）3.处理语料库。以搜狗2012全网新闻数据为例： (1)首先处理掉HTML标签并转为utf8编码格式：cat news_tensite_xml.dat | iconv -f gb18030 -t utf-8 -c | grep "<content
复制链接

扫一扫

专栏目录