sklearn文档向量化(CountVectorizer、stopwords和ngram的简单举例)

from sklearn.feature_extraction.text import CountVectorizer

corpus=['Job was the charirman of Apple Inc., and he was very famous',
       'I like to use apple computer',
       'And I also like to eat apple']

如上图,希望对列表中的三句话进行向量化处理

vectorizer = CountVectorizer()
print("未经停用词过滤的文档向量化情况:")
print(vectorizer.fit_transform(corpus).todense())  # 显示完整矩阵形式
print(vectorizer.vocabulary_)

可看到文档被转换成了3行17列的形式,表示各个词在矩阵中的出现情况

接下来,加载nltk库包中的停用词表,对文档进一步处理

import nltk
nltk.download("stopwords")
stopwords = nltk.corpus.stopwords.words("english")
print (stopwords)

 通过设定停用词,对文档重新进行向量化处理

vectorizer1 = CountVectorizer(stop_words="english")
print("after stopwords removal:")
print(vectorizer1.fit_transform(corpus).todense())
print(vectorizer1.vocabulary_)

 由此,现矩阵变成3行8列的形式

此外,还可以通过ngram方式对文档划分标准进行设定,以下代码演示了以单个单词和两个单词为划分标准的情况,即ngram_range(1,2)

vectorizer2 = CountVectorizer(ngram_range=(1,2))
print("N-gram mode:")
print(vectorizer2.fit_transform(corpus).todense())
print(vectorizer2.vocabulary_)

该偏代码源自深度学习基础_哈尔滨工业大学_中国大学MOOC(慕课) (icourse163.org)

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值