sklearn.feature_extraction.text中常见 Vectorizer 使用方法以及Tf–idf 值获取

最新推荐文章于 2024-09-12 08:56:28 发布

锅巴QAQ

最新推荐文章于 2024-09-12 08:56:28 发布

阅读量5.1k

点赞数 2

分类专栏： NLP自然语言处理文章标签： CountVectorizer Tf–idf TfidfTransformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pit3369/article/details/95643392

版权

本文介绍了如何在scikit-learn中使用CountVectorizer和TfidfTransformer进行文本分析，包括令牌化、统计词频和标准化过程。通过这两个工具，可以将文本转换为稀疏的TF-IDF向量，以便用于机器学习算法。同时，强调了在应用TF-IDF时需要注意corpus的正确格式。

摘要由CSDN通过智能技术生成

对于在tf-idf进行关键字提取的过程中，Scikit-learn提供了TFIDF算法的相关函数，本文主要用到了sklearn.feature_extraction.text下的TfidfTransformer和CountVectorizer函数。其中，CountVectorizer函数用来构建语料库的中的词频矩阵，TfidfTransformer函数用来计算词语的tfidf权值。

本部分参考自：http://sklearn.apachecn.org/#/docs/39?id=_52-%e7%89%b9%e5%be%81%e6%8f%90%e5%8f%96

模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征，比如文本和图片

文本分析是机器学习算法的主要应用领域。然而，原始数据，符号文字序列不能直接传递给算法，因为它们大多数要求具有固定长度的数字矩阵特征向量，而不是具有可变长度的原始文本文档。

为解决这个问题，scikit-learn提供了从文本内容中提取数字特征的最常见方法，即：

令牌化（tokenizing） 对每个可能的词令牌分成字符串并赋予整数形的id，例如通过使用空格和标点符号作为令牌分隔符。
统计（counting） 每个词令牌在文档中的出现次数。
标准化（normalizing） 在大多数的文档 / 样本中，可以减少重要的次令牌的出现次数的权重。。

在该方案中，特征和样本定义如下：

每个单独的令牌发生频率（归一化或不归零）被视为一个特征。
给定文档中所有的令牌频率向量被看做一个多元sample样本。

因此，文本的集合可被表示为矩阵形式，每行对应一条文本，每列对应每个文本中出现的词令牌(如单个词)。

我们称向量化是将文本文档集合转换为数字集合特征向量的普通方法。这种特殊思想（令牌化，计数和归一化）被称为 Bag of Words 或 “Bag of n-grams” 模型。

最低0.47元/天解锁文章

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。