出现词
我们对最常用的语句进行处理下。
分析这组对话中,都出现了什么词。
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()
docs = np.array(['How are you?','Fine,thank you','And you?'])
bag = count.fit_transform(docs)
print(count.vocabulary_)
print(bag.toarray())
我们可以看到各种单词出现的个数。
下面的意思是,每组里面是否显示次数。
上面图的字,排序显示为and are fine how thank you
比如第一句how are you
在上面的排序中,显示次数依次为0 1 0 1 0 1
,就是下图的含义了。
!