文本学习

本文介绍了文本学习中的词袋模型,解释了词袋编码和其在机器学习中的作用。此外,讨论了停止词的处理、如何从NLTK获取停止词,以及词干化对文本简化的重要性。最后,阐述了TF-IDF表达的概念,它是通过结合术语频率(Tf)和逆文档频率(Idf)来赋予词汇更高的区分度。
摘要由CSDN通过智能技术生成

词袋

在文本学习中输入的每个句子的长度和内容都有可能是不同的,你不能根据句子的长度进行划分。那么如何将文本中的内容用于机器学习呢?

我们现在介绍词袋的概念。

他的基本理念就是选定一个文本,然后计算文本的频率。

这里写图片描述

如图所示,实际上词袋以向量形式统计每个单词出现的次数。

很明显的是词袋只是对于单词数量的统计而对于单词顺序完全不关心。

词袋编码

在sklearn中词袋被称为CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
string1 = "hello world"
string2 = "i love you"
string3 = "how are you"
e
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Einstellung

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值