基于spark word2vec实践

本文介绍了word2vec的作用,如分类、聚类和推荐等,并探讨了Skip-gram和CBOW两种实现方式。接着,通过Spark mllib在全网新闻数据上进行word2vec的实践,包括数据预处理、使用哈工大分词器进行分词,以及训练Skip-gram模型。最后,文章提到了训练中可能遇到的问题,如内存配置、分区数量设置和参数选择等。
摘要由CSDN通过智能技术生成
1、word2vec简介、作用
1)解决哪些问题
word2vec,字面意思,将word转化为vector,word是顺序有意义的实体,比如文档中单词、用户依次点击的商品。
word2vec得到实体向量,可以用来度量实体间相似度,在此基础上,以下方向都可以应用(部分方向未实践,参考资料所得):
分类
聚类
推荐
句子向量
短文本分类

2)两种实现方式
Skip-gram:用一个词语作为输入,来预测它周围的上下文。同义词
CBOW :用一个词语的上下文作为输入,来预测这个词语本身。完形填空


2、已实现word2vec的工具
1)Genvim,python版本
2)Spark.ml word2vec,DataFrames实现Skip-gram模型
3)Spark.mllib word2vec,RDD实现Skip-gram模型


3、Spark mllib word2vec实践&tips
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值