spark.ml介绍及应用(一)

  • spark.ml是spark mllib 提供的一套机器学习数据格式化及预处理的api。主要作用就是用于数据的特征提取、转换、选取

  • 主要算法

    特征提取:

        tf-idf:主要的应用就是用于评估一个关键字,在文章中的重要性

        Word2Vec:是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2vec就可以把特征映射到 K 维向量空间,可以为文本数据寻求更加深层次的特征表示 。

        CountVectorizer:可以帮助文档转换成向量。比如在一些使用算法做聚类或者分类的是,用文本直接生成词点是没有办法直接使用的比如:lda,CountVectorizer可以帮助你把词点声称稀疏矩阵,这样就可以使用这样的进行分类或聚类计算

    特征转换:

       Tokenizer:主要作用就是分词,把文本内容按照指定的分隔符号进行拆分。提供简单拆分和正则表达是的方式进行拆分

       StopWordsRemover:从字面理解,就知道这个是用于去除停用词的

       n-gram:   

       未完待续。。。。。。

      

         

    

        

      

转载于:https://my.oschina.net/u/565969/blog/610892

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值