【ML】数据的文字处理

最新推荐文章于 2023-03-19 22:57:34 发布

水清_木秀

最新推荐文章于 2023-03-19 22:57:34 发布

阅读量4.1k

点赞数

分类专栏：机器学习ML 文章标签：文字处理

本文链接：https://blog.csdn.net/WiKi_Su/article/details/78460267

版权

出现词

我们对最常用的语句进行处理下。
分析这组对话中，都出现了什么词。

from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer()
docs = np.array(['How are you?','Fine,thank you','And you?'])
bag = count.fit_transform(docs)
print(count.vocabulary_)
print(bag.toarray())

我们可以看到各种单词出现的个数。

count.vocabulary_

下面的意思是，每组里面是否显示次数。
上面图的字，排序显示为and are fine how thank you

比如第一句how are you在上面的排序中，显示次数依次为0 1 0 1 0 1，就是下图的含义了。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

水清_木秀

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【ML】数据的文字处理

出现词我们对最常用的语句进行处理下。分析这组对话中，都出现了什么词。from sklearn.feature_extraction.text import CountVectorizercount = CountVectorizer()docs = np.array(['How are you?','Fine,thank you','And you?'])bag = count.fit_tr
复制链接

扫一扫