基于spark word2vec实践

最新推荐文章于 2024-08-12 17:27:29 发布

HoGiggle

最新推荐文章于 2024-08-12 17:27:29 发布

阅读量1.1w

点赞数 5

本文链接：https://blog.csdn.net/hjj974834257/article/details/79089686

版权

本文介绍了word2vec的作用，如分类、聚类和推荐等，并探讨了Skip-gram和CBOW两种实现方式。接着，通过Spark mllib在全网新闻数据上进行word2vec的实践，包括数据预处理、使用哈工大分词器进行分词，以及训练Skip-gram模型。最后，文章提到了训练中可能遇到的问题，如内存配置、分区数量设置和参数选择等。

摘要由CSDN通过智能技术生成

 
 1、word2vec简介、作用 

  1）解决哪些问题 

  word2vec，字面意思，将word转化为vector，word是顺序有意义的实体，比如文档中单词、用户依次点击的商品。 

  word2vec得到实体向量，可以用来度量实体间相似度，在此基础上，以下方向都可以应用（部分方向未实践，参考资料所得）： 

  分类 

  聚类 

  推荐 

  句子向量 

  短文本分类 

  2）两种实现方式 

  Skip-gram：用一个词语作为输入，来预测它周围的上下文。同义词 

  CBOW ：用一个词语的上下文作为输入，来预测这个词语本身。完形填空 

 
 2、已实现word2vec的工具 

  1）Genvim，python版本 

  2）Spark.ml word2vec，DataFrames实现Skip-gram模型 

  3）Spark.mllib word2vec，RDD实现Skip-gram模型 

 
 3、Spark mllib word2vec实践&tips

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HoGiggle

关注关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark 3.0 - 18 ML Word2vec 词向量化简介与实战

BITDDD小栈

01-05

608

Spark 3.0 ML Word2Vec 简介与实践。

文本特征提取_02：Word2Vec词嵌入矩阵

【人工智能】王小草的博客

01-20

1万+

王小草SparkML笔记笔记整理时间：2017年1月10日笔记整理者：王小草今日计事：除开上周五在家工作，2017年的工作日从3号开始今天第5次上班迟到，无论起多早每天都是会迟几分钟。第一次挤不上地铁，第二次地铁延误，第三次地铁卡刷不出去到服务台排队，第四次上错了终点站的列车，于是今天提早半小时出门，绕远路到起点站，带上了两张充满钱的地铁卡，上车前看准了对的终点站的车，而且还侥幸偶遇了一个空

9 条评论您还未登录，请先登录后发表或查看评论

Spark word2vec使用

Crystal_Zero的博客

12-08

1万+

Spark 提供有两个包提供了word2vec，分别是 org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} org.apache.spark.ml.feature.Word2Vec 本质没有太大的区别，只是两个包的作用对象不一样 spark.mllib contains the original API built on top of RDDs. spark.ml provides higher-level API built on top

spark_NLP-word2vec

Andy_shenzl的博客

07-27

376

序列嵌入每一天都有数百万人访问企业网站，并且每个人都会采取一些列不同的步骤以便搜寻到合适的信息和产品，不过，其中由于某些原因大多数人没有找到合适的页面而感到失望，只有极少数人能在网页中找到自己想要的内容。在这类情形下，就会变得难以弄清潜在客户实际上是否获得了想要搜寻的信息。另外，也无法对这些浏览者的个体操作进行交叉对比，因为每个人都完成了一组不同的操作。那么，我们如何在能知道与这些操作相关的更多信息并且对这些访客进行交叉对比呢？序列嵌入是一种强大的方式，能为我们提供灵活性，不仅可以对比任意两个单独浏览者

Spark MLlib 特征工程系列—特征提取Word2Vec

热门推荐

zhoubl668的专栏：远帆，梦之帆！

04-22

18万+

word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。一、理论概述（主要来源于http://licstar.net/archives/328这篇博客） 1.词向量是什么自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。　　NLP 中最直观，也是到目前

Spark下的word2vec模型训练

chunyun0716的专栏

03-20

6565

一、引言前边一节介绍了Word2Vec模型训练同义词，那么在大数据量的情况下，我们自然想到了用spark来进行训练。下面就介绍我们是如何实现spark上的模型训练。二、分词模型训练的输入是分好词的语料，那么就得实现spark上的分词。def split(jieba_list, iterator): sentences = [] for i in iterator:

【Spark Mllib】TF-IDF&Word2Vec——文本相似度

06-21

2万+

一个比较通用的例子是使用单词的向量表示基于单词的含义计算两个单词的相似度。特征哈希通过使用哈希方程对特征赋予向量下标,这个向量下标是通过对特征的值做哈希得到的(通常是整数)。使用的哈希方程必须是一致的(就是说,对于一个给定的输入,每次返回相同的输出)。的含义是:在一个文档中出现次数很多的词相比出现次数少的词应该在词向量表示中得到更高的权值。最后的结果就是,稀有的或者重要的词被给予了更高的权值,而更加常用的单词(被认为比较不重要)则在考虑权重的时候有较小的影响。对于我们的任务来说,可以使用。

使用word2vec对微博进行情感分析和分类

qq_41853758的博客

10-03

2254

Word2vec可以将词语转换为高维向量空间中的向量表示，它能揭示上下文关系。首先使用word2vec，将其训练得到词向量作为特征权重，然后根据情感词典和词性的两种特征选择方法筛选出有价值的特征，最后引入SVM训练和预测，最终达到情感分类的目的。使用word2vec会得到vectors.bin词向量模型文件，对于文本聚类而言，word2vec提供了一个内部命令来获得近义词列表。我们只需要输入dis...

Word2VecSparkTraining:使用 Apache Spark 训练和使用 Word2Vec 向量的简单项目

06-26

为 Apache Spark 训练的 Word2Vec 使用 UMBC Webbase 语料库 [1] 作为训练数据，基于 Apache Spark 实用程序训练 Word2Vec 100 维单词相似度向量的简单项目。目前存在 3 种大小的向量： XS：在 10% 的网络语料库上训练 S : 在 25% 的网络语料库上训练 M：在 50% 的 webbase 语料库上训练所使用的预处理可以分为两个不同的组。对于这两个组，webbase 语料库的一段被视为单个文档 Unstemed 标记化预处理：简单地使用斯坦福核心 NLP 标记器 [2] 来标记给定的文本词干标记化处理：使用与上述相同的标记化。但是使用在 apache lucene 中实现的 porter stemmer 来阻止令牌 [3] 此外，还集成了余弦相似度方法以计算两个给定词向量之间的相似度。用法参见用法部分

利用word2vec对中文词进行聚类的研究_郑文超1

08-04

摘要：文本聚类在数据挖掘和机器学习中发挥着重要的作用，该技术经过多年的发展，已产生了一系列的理论成果。本文在前人研究成果的基础上，探索了一种新的中文聚类方法。本

spark word2vec 源码_第二篇: 词向量之Spark word2vector实战

weixin_39591386的博客

12-20

474

一、概述word2vector 是google开源的一个生成词向量的工具，以语言模型为优化目标，迭代更新训练文本中的词向量，最终收敛获得词向量。词向量可以作为文本分析中重要的特征，在分类问题、标注问题等场景都有着重要的应用价值。本文总结下了spark word2vector使用过程中遇到的问题，以及给出word2vector使用所需的参数配置，希望能够减少新手在使用过程中遇到的坑，希望有所帮助。二...

spark厦大---Word2Vec--spark.ml

智慧与美貌并存

05-04

2929

来源：http://mocom.xmu.edu.cn/article/show/587f103faa2c3f280956e7b6/0/1 Word2Vec 是一种著名的词嵌入（Word Embedding）方法，它可以计算每个单词在其给定语料库环境下的分布式词向量（Distributed Representation，亦直接被称为词向量）。词向量表示可以在一定程度上刻画

word2vec的spark实现_Spark ML Word2Vec算法分析与代码实战

weixin_42319436的博客

01-30

239

一.简介Word2Vec是一个Estimator代表文档的单词序列并训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将每个文档转换为向量；然后，可以将此向量用作预测，文档相似度计算等的功能。词向量映射Word2Vec计算单词的分布式矢量表示。分布式表示的主要优点是向量空间中相似的词很接近，这使得对新颖模式的泛化...

词向量word2vec-实战

lak的专栏

06-27

320

1.引用 tensorflow 2.stopwords.txt 停用词（不需要的词语），。网上可以下载很多，下面是本例中使用的示例图：

spark scala word2vec 和多层分类感知器在情感分析中的实际应用

weixin_34245082的博客

11-09

128

转自：http://www.cnblogs.com/canyangfeixue/p/7227998.html 对于威胁检测算法使用神经网络训练有用！！！TODO待实验 /** * Created by lkl on 2017/7/21. */ //import com.ibm.spark.exercise.util.LogUtils //...

Spark成长之路(9)-Word2Vec

doctorq

07-25

774

word2vec 简介将文本映射到K维空间的向量值。代码object Word2VecExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() spark.sparkContext.setLogLevel("WARN") // Inpu

spark word2vec transform

12-10

spark的word2vec模型中，transform()方法可以将训练语料中的一个句子表示成一个向量。具体来说，它将句子中的每个词转换为对应的词向量，然后将这些词向量相加并取平均值，最终得到表示整个句子的向量。下面是一个使用transform()方法的例子： ```python from pyspark.ml.feature import Word2VecModel from pyspark.sql.functions import col # 加载训练好的word2vec模型 model = Word2VecModel.load("word2vec_model") # 定义一个DataFrame，包含一个名为“text”的列，其中包含一个句子 data = spark.createDataFrame([("this is a sentence".split(" "),)], ["text"]) # 使用transform()方法将句子表示成向量 result = model.transform(data).select(col("result").alias("vector")) # 输出表示句子的向量 result.show(truncate=False) ``` 上述代码中，我们首先加载了训练好的word2vec模型，然后定义了一个DataFrame，其中包含一个名为“text”的列，其中包含一个句子。接着，我们使用transform()方法将句子表示成向量，并将结果保存在一个名为“result”的DataFrame中。最后，我们输出表示句子的向量。