Spark ML中提取Word2Vec

最新推荐文章于 2024-08-12 17:27:29 发布

cong_han

最新推荐文章于 2024-08-12 17:27:29 发布

阅读量705

点赞数

分类专栏： Spark 文章标签： spark spark ml nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_lutch/article/details/89317459

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

word2vec一般分为CBOW 与Skip-Gram两种模型
Continuous Bag-of-Words，CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量.
Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。
word2vec简单来说是一个特征提取过程，以下为提取的实例.

import org.apache.spark.ml.feature.Word2Vec

//先创建一个spark里的dataframe
val DF = spark.createDataFrame(Seq(
	"Good morning".split(" "),
	"Good afternoon".split(" "),
	"Good morning".split(" "),
	).map(arrayOne.apply)
).toDF("text")

val word2Vec = new Word2Vec()
	.setInputCol("text")
	.setOutputCol("result")
	.setVectorSize(3)
	.setMinCount(0)
val model = word2Vec.fit(DF)
val result = model.transform(DF)
result.selet("result").take(3).foreach(println)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄9年

63
原创

81
点赞

128
收藏

68
粉丝

关注

私信

热门文章

分类专栏

java 13篇
python 5篇
redis 3篇
ES 1篇
面经 1篇
Spark 4篇
数据结构 3篇
计算机网络 1篇
leetcode 22篇
Spring 8篇
大数据 5篇
设计模式 4篇

最新评论

（一）Python中的元组
简单简单小白: 《Python中的元组》感谢博主的优质好文，文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文！
Spring ProxyFactoryBean
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
SpringBoot中的桥接模式
征途黯然.: The knowledge in SpringBoot中的桥接模式 is admirable, and the article is highly valuable.
Elasticsearch聚合查询
CSDN-Ada助手: Elasticsearch 中如何进行批量数据更新和删除操作？
关于TiDB的数据库特点与对比
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。