spark TF-IDf CountVectorizer单词对应索引

最新推荐文章于 2022-10-13 12:13:09 发布

qq_40285736

最新推荐文章于 2022-10-13 12:13:09 发布

阅读量434

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/qq_40285736/article/details/108652955

版权

 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。
  * 当先验字典不可用时，CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。
  * 该模型为词汇表上的文档生成稀疏向量表示方式，然后可以将其传递给其他算法，例如LDA。
  *
  * 在拟合过程中，CountVectorizer将选择整个语料库中按词频排列的前vocabSize词。
  * 可选参数minDF还通过指定一个术语必须出现在词汇表中的最小数量（或小于1.0的分数）来影响拟合过程。
  * 另一个可选的二进制切换参数控制输出向量。如果将其设置为true，则所有非零计数都将设置为1。
  * 这对于模拟二进制而不是整数计数的离散概率模型特别有用。

本文目的有数据1 TF-IDf获得数据2
数据1

+-----+--------------------+--------------------+--------------------+
|label|               words|         rawFeatures|            features|
+-----+--------------------+--------------------+--------------------+
|  0.0|[hi, i, heard, ab...|(16,[0,4,12,13,14...|(16,[0,4,

最低0.47元/天解锁文章

qq_40285736

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark TF-IDf CountVectorizer单词对应索引

* CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时，CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量表示方式，然后可以将其传递给其他算法，例如LDA。 * * 在拟合过程中，CountVectorizer将选择整个语料库中按词频排列的前vocabSize词。 * 可选参数minDF还通过指定一个术语.
复制链接

扫一扫