spark.ml是spark mllib 提供的一套机器学习数据格式化及预处理的api。主要作用就是用于数据的特征提取、转换、选取
主要算法
特征提取:
tf-idf:主要的应用就是用于评估一个关键字,在文章中的重要性
Word2Vec:是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2vec就可以把特征映射到 K 维向量空间,可以为文本数据寻求更加深层次的特征表示 。
CountVectorizer:可以帮助文档转换成向量。比如在一些使用算法做聚类或者分类的是,用文本直接生成词点是没有办法直接使用的比如:lda,CountVectorizer可以帮助你把词点声称稀疏矩阵,这样就可以使用这样的进行分类或聚类计算
特征转换:
Tokenizer:主要作用就是分词,把文本内容按照指定的分隔符号进行拆分。提供简单拆分和正则表达是的方式进行拆分
StopWordsRemover:从字面理解,就知道这个是用于去除停用词的
n-gram:
未完待续。。。。。。