词袋
在文本学习中输入的每个句子的长度和内容都有可能是不同的,你不能根据句子的长度进行划分。那么如何将文本中的内容用于机器学习呢?
我们现在介绍词袋的概念。
他的基本理念就是选定一个文本,然后计算文本的频率。
如图所示,实际上词袋以向量形式统计每个单词出现的次数。
很明显的是词袋只是对于单词数量的统计而对于单词顺序完全不关心。
词袋编码
在sklearn中词袋被称为CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
string1 = "hello world"
string2 = "i love you"
string3 = "how are you"
e