精通特征工程（三）文本数据：扁平化、过滤和分块_爱丽丝·郑,阿曼达·卡萨丽. 精通特征工程. 人民邮电出版社, 2019.-CSDN博客

本文链接：https://blog.csdn.net/lyy_427/article/details/140202045

#此篇为学习笔记，部分资料、图片来源图灵程序设计丛书《精通特征工程》阿曼达 .卡萨丽、爱丽丝.郑著

词袋：基于单词数量的最简单的文本特征表示方法

元素袋：将自然文本转换为扁平向量

虽然简单明了的特征不一定会得到最准确的模型，但从简单开始并且仅在绝对必要时才添加复杂性总是没错的。

对于文本数据，我们可以从一个单词数量的统计列表开始，这称为词袋（bag-of-words,Bow）

词袋将一个文本文档转换成为一个扁平向量。之所以说这个向量是“扁平”的,是因为它不包含原始文本中的任何结构

在词袋表示中，重要的是特征空间中的数据分布。在词袋向量中，每个单词都是向量的一个维度。如果词汇表中有n个单词，那么一篇文档就是n维空间中的一个点。

词袋并非完美无缺，将句子分解为单词会破坏语义。

n元词袋（Bag-of-n-grams）是自然语言处理（NLP）中一种常用的文本特征表示方法，它是词袋模型（Bag-of-Words, BoW）的一个扩展。词袋模型将文本简化为无序的词汇集合，忽略词汇间的顺序和语法结构，仅保留词汇出现的频率。

在n元词袋模型中，“n”代表的是一个连续的词汇序列长度，这个序列被称为n-gram或n元词。例如：

1-gram 或 unigram：单个词，如 "the" 或 "is"。

2-gram 或 bigram：两个连续词的组合，如 "the cat"。

3-gram 或 trigram：三个连续词的组合，如 "the cat sat"。

...

n-gram：n个连续词的组合。

n元词袋模型不仅考虑词汇的出现频率，还考虑了部分词汇间的相邻关系，从而可以捕获一定程度上的上下文信息。这使得n元词袋模型在很多NLP任务中，如文本分类、情感分析、机器翻译等，比简单的词袋模型表现更好，因为它能够捕捉到短语和惯用表达的影响。

停用词（Stop Words）是指在文本分析和信息检索过程中通常会被忽略的一组词汇。这些词汇通常是语言中最常见的功能词，例如冠词、介词、连词和代词，它们在句子中起到语法作用，但往往不携带太多具体的意义或对文本的主题内容贡献不大。

例如，在英语中，“a”, “an”, “the”, “in”, “on”, “at”, “is”, “are”, “and”, “or”, “but”等就是典型的停用词。在中文里，“的”, “了”, “是”, “在”, “有”等也是常见的停用词。

1.高频词

频率统计有助于将基于频率的过滤技术与停用词列表结合起来，但有一个问题，就是如何划分二者的界限。多数情况，需要人为地确定这个界限，而且要随着数据集的变化而不断调整。

2.罕见词

罕见词可能是真正的生僻词，也可能是拼写错误的普通单词。

罕见词不仅无法作为预测的凭据，还会增加计算上的开销。

常见词使用它们本身的计数，可以进一步通过停用词列表或其他基于频率的方法进行过滤。对于罕见词，则不做区分，统一放到垃圾箱特征中。

词干提取（Stemming）是自然语言处理（NLP）中的一项重要预处理技术，用于将词语还原为其基本形式，即词干（stem）。词干通常是词汇的词根部分，不包括词缀（前缀、后缀等）。词干提取的目标是减少词汇的多样性，将具有相似含义的不同形式的词统一到同一个词干上，从而提高文本分析的效率和准确性。

词干提取与词形还原（Lemmatization）类似，但两者之间存在一些关键差异。词干提取通常依赖于算法来切割词缀，而这种切割可能是不规则的，不一定遵循语言的语法和形态学规则。相比之下，词形还原则试图将词语还原为其字典形式或词典中的基本形式，这一过程通常基于词典和规则，更符合语言的语法结构。

解析（Parsing）与分词（Tokenization）是两个非常基础且重要的预处理步骤，它们分别服务于不同的目的，但都是理解文本结构和意义的关键环节。

分词是将连续的文本流切分为有意义的基本单元——词或标记（Tokens）的过程。这些词或标记可以是单词、数字、标点符号或任何有意义的字符序列。分词是大多数NLP任务的第一步，因为计算机无法直接理解连续的文本字符串，需要将其分解为更小的、可处理的单位。

分词的具体实现会因语言而异。例如，在英语中，空格通常被用作单词之间的天然分隔符，而中文则没有空格分隔，需要专门的算法来确定词语边界。此外，分词还需要处理缩写词、复合词、数字、网址、电子邮件地址等特殊情况。

解析是指分析文本的句法结构，确定词语之间的关系和整个句子的结构树的过程。解析器输出的结构树（通常称为依存树或短语结构树）可以揭示句子中各个成分是如何相互关联的，这对于理解句子的深层意义至关重要。

解析可以分为两种主要类型：

依存句法分析（Dependency Parsing）：关注词语之间的直接依存关系，形成一个以词语为节点的有向图，其中每个词都连接到另一个词，表示其依存关系。
短语结构分析（Constituency Parsing）：关注构成句子的短语层次结构，形成一个树状结构，树的叶子节点是单词，非叶节点表示短语或句子成分