NLP基础——Bag of Words 词袋法

文章目录

Bag of Words (BOW)

Bag of Words(BoW)算法是一种在自然语言处理(NLP)中常用的文本表示方法,适用于文本分类、情感分析等多种任务。

BoW 方法的基本思想是 将文本(比如一个句子或一个文档)转化为一个词袋,忽略其词序和语法,仅仅考虑词频。 具体来说,BoW 算法首先创建一个词汇表,包含训练语料中的 所有独立单词,然后对于每一个文本,生成一个向量,长度为词汇表的大小,每一个元素是对应单词在该文本中出现的次数。

例如,假设我们有以下两个句子:

  • “The cat sat on the mat.”
  • “The dog sat on the log.”

对于这两个句子,我们首先创建词汇表,包含所有的单词:{ “The”, “cat”, “sat”, “on”, “the”, “mat”, “dog”, “log”}。

然后,我们可以用以下两个向量来表示这两个句子:

[2, 1, 1, 1, 2, 1, 0, 0] (对应 “The cat sat on the mat.”)
[2, 0, 1, 1, 2, 0, 1, 1] (对应 “The dog sat on the log.”)

这就是 BoW 的基本思想。

需要注意的是,BoW 忽略了词序和语法信息,这对于很多任务可能是一个问题。另外,BoW 还有一个问题是高维度,因为它的维度是词汇表的大小,这对于大语料来说可能是非常大的。此外,常见的词(如 “the”)可能会主导向量表示,而对特定任务可能更重要的罕见词可能会被忽视。因此,通常我们会使用 TF-IDF 或其他方法对 BoW 进行改进。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖仔会飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值