Spark - 学习CountVectorizer

最新推荐文章于 2024-06-07 11:25:36 发布

此心光明-超然

最新推荐文章于 2024-06-07 11:25:36 发布

阅读量549

点赞数

分类专栏： Spark 文章标签： Spark

本文链接：https://blog.csdn.net/weixin_43364172/article/details/95864738

版权

本文介绍了Spark中的CountVectorizer工具，它用于将文本数据转化为词频向量。通过创建词汇表，CountVectorizer能将文本文档转换为稀疏表示，便于进一步的分析，如配合LDA进行主题模型学习。

摘要由CSDN通过智能技术生成

CountVectorizer和CountVectorizerModel用来把文本文档的集合转换成token数量的矢量。如果没有字典，CountVectorizer可以抽取vocabulary（词汇）生成CountVectorizerModel。该model为文档生成词汇的稀疏表示，然后可以传给其他算法，比如LDA。

public class CountVectorizerDemo {
   

    public static void main(String[] args) {
   
        SparkSession spark = SparkSession.builder()
                .master("local")
                .appName("CountVectorizer")
                .getOrCreate();

        List<Row> data = Arrays.asList(
                RowFactory.create(0, Arrays.asList("Jason", "David")

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

此心光明-超然

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark - 学习CountVectorizer

CountVectorizer和CountVectorizerModel用来把文本文档的集合转换成token数量的矢量。如果没有字典，CountVectorizer可以抽取vocabulary（词汇）生成CountVectorizerModel。该model为文档生成词汇的稀疏表示，然后可以传给其他算法，比如LDA。public class CountVectorizerDemo { ...
复制链接

扫一扫