机器学习（十三）特征抽取–CountVectorizer

最新推荐文章于 2024-01-04 23:53:22 发布

王小鹏的随笔

最新推荐文章于 2024-01-04 23:53:22 发布

阅读量700

点赞数

分类专栏：机器学习文章标签：大数据 java 机器学习

本文链接：https://blog.csdn.net/weixin_42438712/article/details/103897077

版权

本文介绍了CountVectorizer的概念，它通过计数将文档转换为向量，用于无先验字典的情况。在训练过程中，CountVectorizer根据词频创建词汇表。文章详细讲解了如何设置参数、构造文档集合、训练模型以及获取文档向量，还展示了如何使用预定义词汇表直接生成CountVectorizerModel。

摘要由CSDN通过智能技术生成

一、概念

CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法，例如LDA（ Latent Dirichlet Allocation 隐含狄利克雷分布）。

在CountVectorizerModel的训练过程中，CountVectorizer将根据语料库中的词频排序从高到低进行选择，词汇表的最大含量由vocabsize超参数来指定，超参数minDF则指定词汇表中的词语至少要在多少个不同文档中出现。

二、代码实现

2.1、构造文档集合

import java.util.Arrays;
import java.util.List;
import org.apache.spark.ml.feature.CountVectorizer;
import org.apache.spark.ml.feature.CountVectorizerModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import or