文本学习

最新推荐文章于 2024-05-26 19:14:11 发布

Einstellung

最新推荐文章于 2024-05-26 19:14:11 发布

阅读量2.3k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Einstellung/article/details/76577532

版权

本文介绍了文本学习中的词袋模型，解释了词袋编码和其在机器学习中的作用。此外，讨论了停止词的处理、如何从NLTK获取停止词，以及词干化对文本简化的重要性。最后，阐述了TF-IDF表达的概念，它是通过结合术语频率(Tf)和逆文档频率(Idf)来赋予词汇更高的区分度。

摘要由CSDN通过智能技术生成

词袋

在文本学习中输入的每个句子的长度和内容都有可能是不同的，你不能根据句子的长度进行划分。那么如何将文本中的内容用于机器学习呢？

我们现在介绍词袋的概念。

他的基本理念就是选定一个文本，然后计算文本的频率。

这里写图片描述

如图所示，实际上词袋以向量形式统计每个单词出现的次数。

很明显的是词袋只是对于单词数量的统计而对于单词顺序完全不关心。

词袋编码

在sklearn中词袋被称为CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
string1 = "hello world"
string2 = "i love you"
string3 = "how are you"
e

最低0.47元/天解锁文章

Einstellung

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
文本学习

词袋在文本学习中输入的每个句子的长度和内容都有可能是不同的，你不能根据句子的长度进行划分。那么如何将文本中的内容用于机器学习呢？我们现在介绍词袋的概念。他的基本理念就是选定一个文本，然后计算文本的频率。如图所示，实际上词袋以向量形式统计每个单词出现的次数。很明显的是词袋只是对于单词数量的统计而对于单词顺序完全不关心。词袋编码在sklearn中词袋被称为CountVectorizerfrom skle
复制链接

扫一扫