sparkmllib算法之操作-第三篇（Word2Vec）

最新推荐文章于 2022-07-08 18:15:57 发布

置顶

阿龙学堂

最新推荐文章于 2022-07-08 18:15:57 发布

阅读量638

点赞数

分类专栏： spark 机器学习 sparkmllib 文章标签： spark

本文链接：https://blog.csdn.net/superzyl/article/details/103979153

版权

本文详细介绍了Word2Vec的定义、原理及其在Spark中的实现方法，包括Hierarchical softmax和negative sampling等加速技巧。通过Spark代码示例，展示如何在Spark环境下训练词向量模型。

摘要由CSDN通过智能技术生成

1、定义

如果用一句比较简单的话来总结，word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度，其中的tricks包括Hierarchical softmax，negative sampling, Huffman Tree等。

2、原理

word2vec可以分为两部分：模型与通过模型获得的词向量。
word2vec，字面意思，将 word 转化为 vector，word 是顺序有意义的实体，比如文档中单词、用户依次点击的商品。
word2vec 是 NLP 领域的重要算法，它的功能是将 word 用 K 维的 dense vector 来表达，训练集是语料库，不含标点，以空格断句。因此可以看作是种特征处理方法。

word2vec 两种实现方式：Skip-gram：用一个词语作为输入，来预测它周围的上下文。同义词 p(word1|word2)
CBOW ：用一个词语的上下文作为输入，来预测这个词语本身。完形填空p(word1|word2,word3)

3、spark代码实现

3.1、添加依赖包

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.11</artifactId>
            <vers

最低0.47元/天解锁文章

阿龙学堂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录