特征抽取----Word2Vec

最新推荐文章于 2020-12-20 07:24:48 发布

weixin_30337157

最新推荐文章于 2020-12-20 07:24:48 发布

阅读量176

点赞数

文章标签：大数据 java

原文链接：http://www.cnblogs.com/SoftwareBuilding/p/9485882.html

版权

 
   #导入相关的库 
  
   from pyspark.ml.feature import Word2Vec 
  
   from pyspark.sql import SparkSession 
  
   #配置spark 
  
   spark = SparkSession.builder.master("local").appName("Word2VecDemo").getOrCreate() 
  
   #创建三个词语序列，每个代表一个文档 
  
   documentDF = spark.createDataFrame([ 
  
    ("Hi I heard about Spark".split(" "), ), 
  
    ("I wish Java could use case classes".split(" "), ), 
  
    ("Logistic regression models are neat".split(" "), ) 
  
   ], ["text"]) 
  
   #新建一个Word2Vec ，他是一个Estimator 
  
   word2Vec = Word2Vec(vectorSize =3, minCount=0, inputCol="text", outputCol="result") 
  
   #读入训练集，用fit() 方法生成Word2VecModel 
  
   model = word2Vec.fit(documentDF) 
  
   #利用生成的Word2VecModel转成特征向量 
  
   result =model.transform(documentDF) 
  
   for row in result.collect(): 
  
    　　text, vector = row 
  
    　　print("Text: [%s] => \nVector: %s\n" % (", ".join(text), str(vector))) 
  
关于超参数的设置:

转载于:https://www.cnblogs.com/SoftwareBuilding/p/9485882.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30337157

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征抽取----Word2Vec

#导入相关的库from pyspark.ml.feature import Word2Vecfrom pyspark.sql import SparkSession#配置sparkspark = SparkSession.builder.master("local").appName("Word2VecDemo").getOrCreate()#创建三个词语序列，每个代...
复制链接

扫一扫