词袋模型的通俗介绍-CSDN博客

更多深度文章，请关注云计算频道：https://yq.aliyun.com/cloud

所谓的词袋（Bag-of-words）模型是一种用机器学习算法对文本进行建模时表示文本数据的方法。

在本教程中，你将了解到自然语言处理中的特征抽取方法。

完成本教程后，你将知道：

1.什么是词袋（Bag-of-words）模型，以及为什么需要用它来表示文本。

2.如何为一组文档开发一个词袋（Bag-of-word）模型。

3.如何使用不同的技术准备词汇和单词。

e2c27c65f131ab117dec5322b9a96e8ff3dc035e

教程概述

本教程分为6部分; 它们是：

1ã文本问题。

2ã什么是词袋（Bag-of-Words）?

3ãBag-of-Words模型的例子。

4ã管理词汇（managing vocabulary）。

5ã得分词(scoring words)

6ã词袋（Bag-of-Words）的局限。

1、文本问题

机器学习这样的技术比较喜欢被定义好的固定长度的输入和输出，因此不固定输入输出是文本建模的一个问题。

机器学习算法不能直接处理原始文本，文本必须转换成数字。具体来说，是数字的向量。

“在语言处理中，向量x是由文本数据派生而来的，以反映文本的各种语言属性。”在自然语言处理中神经网络方法,2017年。

这被称为特征提取或特征编码。这是一种流行的、简单的文本数据提取方法被称为文本的词汇模型。

2、什么是词袋(Bag-of-Words)？

一个简单的词袋模型（BOW），是一种使用机器学习算法。从文本中提取特征的方法。该方法非常简单和灵活，可以用于从文档中提取各种功能的各种方法。词袋（Bag-of-words）是描述文档中单词出现的文本的一种表示形式。它涉及两件方面：

1.已知词汇的集合。

2.测试已知单词的存在。

因为文档中单词是以没有逻辑的顺序的放置，所以称为单词的“袋子”。该模型只关注文档中是否出现已知的单词，并不关注文档中的出现的单词。

“bag-of-words方法(BOW)是句子和文件的一个非常常见的特征提取程序。在这种方法中，我们查看文本中单词的直方图，也就是将每个单词计数作为一个特性。”- 自然语言处理中的神经网络方法，2017。

词袋（bag-of-words）可以像你喜欢的那样简单或复杂。其复杂性在于决定如何设计已知单词（或令牌）的词汇量以及如何统计已知单词的存在。

接下来我们将仔细研究这两个问题。

3、词袋（Bag-of-Words）模型的例子

让我们用一个有效的例子来制作一个词袋（bag-of-words）模型。

步骤1：收集数据

以下是Gutenberg项目中Charles Dickens的《双城记》一书中的前几行文字。

“It was the best of times,
it was the worst of times,
it was the age of wisdom,
it was the age of foolishness,”

对于这个小示例，我们将每一行视为一个单独的“文档”，将4行视为整个文档。

步骤2：设计词汇

现在我们可以列出我们的模型词汇表中的所有单词：

• “it”

• “was”

• “the”

• “best”

• “of”

• “times”

• “worst”

• “age”

• “wisdom”

• “foolishness”

这是一个由包括24个词组成的语料库中其中包含10个词汇。

步骤3：创建文档向量

下一步是在每个文档中记录单词。目的是将自由文本的每个文档转换为一个文本向量，这样我们就可以将其用作机器学习模型的输入或输出。

因为我们知道词汇有10，所以我们可以使用固定长度为10的文档，来表示向量中的每一个单词的位置。

最简单的设计方法是将单词的存在标记为布尔值，0表示缺席，1表示存在。使用我们的词汇表中列出的任意顺序排列，我们可以通过第一个文档（“It was the best of times”），并将其转换为二进制向量。

该文件的评分如下所示：

· “it” = 1

· “was” = 1

· “the” = 1

· “best” = 1

· “of” = 1

· “times” = 1

· “worst” = 0

· “age” = 0

· “wisdom” = 0

· “foolishness” = 0

作为二进制向量，如下所示：

[1, 1, 1, 1, 1, 1, 0, 0, 0, 0]

其他三份文档如下：

"it was the worst of times" = [1, 1, 1, 0, 1, 1, 1, 0, 0, 0]
"it was the age of wisdom" = [1, 1, 1, 0, 1, 0, 0, 1, 1, 0]
"it was the age of foolishness" = [1, 1, 1, 0, 1, 0, 0, 1, 0, 1]

这些传统的文档式词的所有排序都被丢弃了，我们可以用这种通用的方法来从我们语料库中的任何文档来提取特征，进而可以用于建模。但可能包含新的词汇，但仍然可以进行编码，其中只有已知单词的出现被统计，而未知单词将被忽略。

你可以想到这种方式将如何自然的扩展到更大型的文档。

4、词汇管理（Managing Vocabulary）

随着词汇量的增加，文档的向量表示也将随之增加。在前面的示例中，文档向量的长度等于已知单词的数量。你可以想象，对于一个非常大的语料库，比如成千上万的词汇量，向量的长度可能达到成千上万。此外，每个单一的文档可能包含词汇中已知的词汇量很少。

这就产生了很多零向量，称为稀疏向量（sparse vector）或稀疏表示（sparse representation）。

稀疏向量在建模时需要更多的内存和计算资源，大量的位置或维度使建模过程使用传统算法非常具有挑战性。

因此，当使用词袋（bag-of-words）模型时可以迫使其减小词汇量的大小。

当然，也有一些简单的文本清理技术可以作为第一步，如：

• 忽视案例。

• 忽略标点符号。

• 忽略没有太多信息的频繁单词(又被称为停止词)，如“a”，“of”等。

• 修正拼错的单词。

• 使用词干算法减少词语（例如“播放”）。

一种更复杂的方法是创建分组单词的词汇表。这两者都改变了词汇表的范围，并允许词袋（bag-of-words）从文档中获取更多的意义。

在这种方法中，每个单词或标记被称为“gram”。创建两个词对的词汇又被称为二元模型（bigarm）。再次，只有出现在语料库中的bigarm，而非所有的bigram都能被称为二元模型。

一个N-gram是一个N符号的单词序列：一个2-gram（更常称为二进制）是一个两个字的序列，如“please turn”，“turn your”或“your homework”,一个3-gram（更通常称为三元组）是一个三个字的序列，如“please turn your”或“turn your homework”。-语音和语言处理，2009。

例如，上一节的第一行文字中的双字：“It was the best of time”如下：

• “it was”

• “was the”

• “the best”

• “best of”

• “of time”

• 然后，词汇跟踪三元组的单词称为三元模型，通用方法称为n-gram模型，其中n表示分组单词的数量。

通常，简单的二元组方法比用于文档分类的任务的1-gram 词袋（bag-of-words）模型简单的多。

“一个bag-of-bigrams表示比词袋（bag-of-words）更强大，在许多情况下该观点难以被推翻。”-，自然语言处理中的神经网络方法，2017。

5、词的统计

一旦选择了词汇表，就需要对示例文档中的单词进行统计。在上面的例子中，我们已经看到一个非常简单的评分方法：用二进制来表示单词的存在或不存在。

其他一些的简单评分方法包括：