词袋模型（bag-of-words）学习记录 2020-12-CSDN博客

词袋模型（bag-of-words）学习记录

词袋模型的概念
词袋模型的例子
词汇管理
词的统计
词袋（Bag-of-words）的限制

词袋模型的概念

词袋（Bag-of-words）是描述文档中单词出现的文本的一种表示形式。它涉及两个方面：

1.已知词汇的集合。

2.测试已知单词的存在。

因为文档中单词是以没有逻辑的顺序的放置，所以称为单词的“袋子”。该模型只关注文档中是否出现已知的单词，并不关注文档中的出现的单词。

词袋模型的例子

一个词袋（bag-of-words）模型的例子。

步骤1：收集数据

以下是Gutenberg项目中Charles Dickens的《双城记》一书中的前几行文字。

“It was the best of times,

it was the worst of times,

it was the age of wisdom,

it was the age of foolishness,”

对于这个小示例，我们将每一行视为一个单独的“文档”，将4行视为整个文档。

步骤2：设计词汇

现在我们可以列出我们的模型词汇表中的所有单词：

•“it”

•“was”

•“the”

•“best”

•“of”

•“times”

•“worst”

•“age”

•“wisdom”

•“foolishness”

这是一个由包括24个词组成的语料库中其中包含10个词汇。

步骤3：创建文档向量

下一步是在每个文档中记录单词。目的是将自由文本的每个文档转换为一个文本向量，这样我们就可以将其用作机器学习模型的输入或输出。

因为我们知道词汇有10，所以我们可以使用固定长度为10的文档，来表示向量中的每一个单词的位置。

最简单的设计方法是将单词的存在标记为布尔值，0表示缺席，1表示存在。使用我们的词汇表中列出的任意顺序排列，我们可以通过第一个文档（“It was the best of times”），并将其转换为二进制向量。

该文件的评分如下所示：

·“it” = 1

·“was” = 1

·“the” = 1

·“best” = 1

·“of” = 1

·“times” = 1

·“worst” = 0

·“age” = 0

·“wisdom” = 0

·“foolishness” = 0

作为二进制向量，如下所示：

在这里插入图片描述
其他三份文档如下：

在这里插入图片描述

这些传统的文档式词的所有排序都被丢弃了，我们可以用这种通用的方法来从我们语料库中的任何文档来提取特征，进而可以用于建模。但可能包含新的词汇，但仍然可以进行编码，其中只有已知单词的出现被统计，而未知单词将被忽略。

你可以想到这种方式将如何自然的扩展到更大型的文档。

词汇管理

随着词汇量的增加，文档的向量表示也将随之增加。在前面的示例中，文档向量的长度等于已知单词的数量。你可以想象，对于一个非常大的语料库，比如成千上万的词汇量，向量的长度可能达到成千上万。此外，每个单一的文档可能包含词汇中已知的词汇量很少。

这就产生了很多零向量，称为稀疏向量（sparse vector）或稀疏表示（sparse representation）。

稀疏向量在建模时需要更多的内存和计算资源，大量的位置或维度使建模过程使用传统算法非常具有挑战性。

因此，当使用词袋（bag-of-words）模型时可以迫使其减小词汇量的大小。

当然，也有一些简单的文本清理技术可以作为第一步，如：

•忽视案例。

•忽略标点符号。

•忽略没有太多信息的频繁单词(又被称为停止词)，如“a”，“of”等。

•修正拼错的单词。

•使用词干算法减少词语（例如“播放”）。

一种更复杂的方法是创建分组单词的词汇表。这两者都改变了词汇表的范围，并允许词袋（bag-of-words）从文档中获取更多的意义。

在这种方法中，每个单词或标记被称为“gram”。创建两个词对的词汇又被称为二元模型（bigarm）。再次，只有出现在语料库中的bigarm，而非所有的bigram都能被称为二元模型。

一个N-gram是一个N符号的单词序列：一个2-gram（更常称为二进制）是一个两个字的序列，如“please turn”，“turn your”或“your homework”,一个3-gram（更通常称为三元组）是一个三个字的序列，如“please turn your”或“turn your homework”。—语音和语言处理，2009。

例如，上一模块的第一行文字中的2-gram：“It was the best of time”如下：

•“it was”

•“was the”

•“the best”

•“best of”

•“of time”

•然后，词汇跟踪三元组的单词称为三元模型，通用方法称为n-gram模型，其中n表示分组单词的数量。

通常，简单的二元组方法比用于文档分类的任务的1-gram 词袋（bag-of-words）模型简单的多。

“一个bag-of-bigrams表示比词袋（bag-of-words）更强大，在许多情况下该观点难以被推翻。”-，自然语言处理中的神经网络方法，2017。