* CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。
* 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。
* 该模型为词汇表上的文档生成稀疏向量表示方式,然后可以将其传递给其他算法,例如LDA。
*
* 在拟合过程中,CountVectorizer将选择整个语料库中按词频排列的前vocabSize词。
* 可选参数minDF还通过指定一个术语必须出现在词汇表中的最小数量(或小于1.0的分数)来影响拟合过程。
* 另一个可选的二进制切换参数控制输出向量。如果将其设置为true,则所有非零计数都将设置为1。
* 这对于模拟二进制而不是整数计数的离散概率模型特别有用。
本文目的有数据1 TF-IDf获得数据2
数据1
+-----+--------------------+--------------------+--------------------+
|label| words| rawFeatures| features|
+-----+--------------------+--------------------+--------------------+
| 0.0|[hi, i, heard, ab...|(16,[0,4,12,13,14...|(16,[0,4,