Spark大数据-特征抽取Word2Vec(Scala版)

最新推荐文章于 2022-03-21 10:10:32 发布

chenbengang

最新推荐文章于 2022-03-21 10:10:32 发布

阅读量608

点赞数 1

分类专栏： Spark大数据文章标签： spark 大数据机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenbengang/article/details/103778163

版权

Spark大数据专栏收录该内容

20 篇文章 0 订阅

订阅专栏

特征抽取Word2Vec(Scala版)

在这里插入图片描述

import org.apache.spark.sql.SparkSession
val spark=SparkSession.builder().master("local").appName("word2vec").getOrCreate()
import spark.implicits._
import org.apache.spark.ml.feature.Word2Vec

// 我们首先用一组文档，其中一个词语序列代表一个文档。
// 对于每一个文档，我们将其转换为一个特征向量。
// 此特征向量可以被传递到一个学习算法。
val documentDF=spark.createDataFrame(Seq(
    "Hi I heard about Spark".split(" "),
    "I wish Java could use case classes".split(" "),
    "Logistic regression models are neat".split(" ")
).map(Tuple1.apply)).toDF("text")
// 上述数组需要Tuple1.apply，如果list的话就不需要
documentDF.show()

// 创建一个word2vec
val word2vec=new Word2Vec().
    setInputCol("text").
    setOutputCol("result").
    setVectorSize(3).//这里设置特征向量的维度为3
    setMinCount(0) //单词0次以上列入统计
val model=word2vec.fit(documentDF)

val result=model.transform(documentDF)
result.select("result").take(3).foreach(println)

结果为：
[[-0.028139343485236168,0.04554025698453188,-0.013317196490243079]]
[[0.06872416580361979,-0.02604914902310286,0.02165239889706884]]
[[0.023467857390642166,0.027799883112311366,0.0331136979162693]]

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄9年

44
原创

60
点赞

480
收藏

37
粉丝

关注

私信

热门文章

分类专栏

最新评论

Spark大数据-TMDB电影数据分析（spark-scala版）
日有进益_45152456: 从这过来的，https://yeyuanyii.github.io/TMDb-big-data-analysis/不知道是不是楼主写的
Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测
boringrabbit: 或许你就解决这个问题了吗，我的也是空表
Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测
m0_62939827: sudo mkdir dbtaobao输入这个之后没有其他反应之后输入sudo chown -R hadoop:hadoop ./dbtaobao后chown:无效用户：“hadoop:hadoop"这要怎么做
Spark大数据-TMDB电影数据分析（spark-scala版）
@清风明月情@: 您好，python版本有报错，帮忙看下。 [code=plain] py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0) (10.7.83.95 executor driver): org.apache.spark.SparkException: Python worker failed to connect back. at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:203) [/code]
Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测
Penny: println之后没有结果生成怎么办呀，我检查了前面数据导入没有问题

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。