精通特征工程(三) 文本数据:扁平化、过滤和分块

#此篇为学习笔记,部分资料、图片来源 图灵程序设计丛书 《精通特征工程》阿曼达 .卡萨丽、爱丽丝.郑 著

词袋:基于单词数量的最简单的文本特征表示方法

元素袋:将自然文本转换为扁平向量

虽然简单明了的特征不一定会得到最准确的模型,但从简单开始并且仅在绝对必要时才添加复杂性总是没错的。

词袋

对于文本数据,我们可以从一个单词数量的统计列表开始,这称为词袋(bag-of-words,Bow)

词袋将一个文本文档转换成为一个扁平向量。之所以说这个向量是“扁平”的,是因为它不包含原始文本中的任何结构

在词袋表示中,重要的是特征空间中的数据分布。在词袋向量中,每个单词都是向量的一个维度。如果词汇表中有n个单词,那么一篇文档就是n维空间中的一个点。

词袋并非完美无缺,将句子分解为单词会破坏语义。

 

n元词袋

n元词袋(Bag-of-n-grams)是自然语言处理(NLP)中一种常用的文本特征表示方法,它是词袋模型(Bag-of-Words, BoW)的一个扩展。词袋模型将文本简化为无序的词汇集合,忽略词汇间的顺序和语法结构,仅保留词汇出现的频率。

在n元词袋模型中,“n”代表的是一个连续的词汇序列长度,这个序列被称为n-gram或n元词。例如:

1-gram 或 unigram:单个词,如 "the" 或 "is"。

2-gram 或 bigram:两个连续词的组合,如 "the cat"。

3-gram 或 trigram:三个连续词的组合,如 "the cat sat"。

...

n-gram:n个连续词的组合。

n元词袋模型不仅考虑词汇的出现频率,还考虑了部分词汇间的相邻关系,从而可以捕获一定程度上的上下文信息。这使得n元词袋模型在很多NLP任务中,如文本分类、情感分析、机器翻译等,比简单的词袋模型表现更好,因为它能够捕捉到短语和惯用表达的影响。

使用过滤获取清洁特征

 停用词

停用词(Stop Words)是指在文本分析和信息检索过程中通常会被忽略的一组词汇。这些词汇通常是语言中最常见的功能词,例如冠词、介词、连词和代词,它们在句子中起到语法作用,但往往不携带太多具体的意义或对文本的主题内容贡献不大。

例如,在英语中,“a”, “an”, “the”, “in”, “on”, “at”, “is”, “are”, “and”, “or”, “but”等就是典型的停用词。在中文里,“的”, “了”, “是”, “在”, “有”等也是常见的停用词。

基于频率的过滤

1.高频词

频率统计有助于将基于频率的过滤技术与停用词列表结合起来,但有一个问题,就是如何划分二者的界限。多数情况,需要人为地确定这个界限,而且要随着数据集的变化而不断调整。

2.罕见词

罕见词可能是真正的生僻词,也可能是拼写错误的普通单词。

罕见词不仅无法作为预测的凭据,还会增加计算上的开销。

常见词使用它们本身的计数,可以进一步通过停用词列表或其他基于频率的方法进行过滤。对于罕见词,则不做区分,统一放到垃圾箱特征中。

词干提取

词干提取(Stemming)是自然语言处理(NLP)中的一项重要预处理技术,用于将词语还原为其基本形式,即词干(stem)。词干通常是词汇的词根部分,不包括词缀(前缀、后缀等)。词干提取的目标是减少词汇的多样性,将具有相似含义的不同形式的词统一到同一个词干上,从而提高文本分析的效率和准确性。

词干提取与词形还原(Lemmatization)类似,但两者之间存在一些关键差异。词干提取通常依赖于算法来切割词缀,而这种切割可能是不规则的,不一定遵循语言的语法和形态学规则。相比之下,词形还原则试图将词语还原为其字典形式或词典中的基本形式,这一过程通常基于词典和规则,更符合语言的语法结构。

意义的单位:从单词、n元词到短语

解析与分词

解析(Parsing)与分词(Tokenization)是两个非常基础且重要的预处理步骤,它们分别服务于不同的目的,但都是理解文本结构和意义的关键环节。

分词(Tokenization)

分词是将连续的文本流切分为有意义的基本单元——词或标记(Tokens)的过程。这些词或标记可以是单词、数字、标点符号或任何有意义的字符序列。分词是大多数NLP任务的第一步,因为计算机无法直接理解连续的文本字符串,需要将其分解为更小的、可处理的单位。

分词的具体实现会因语言而异。例如,在英语中,空格通常被用作单词之间的天然分隔符,而中文则没有空格分隔,需要专门的算法来确定词语边界。此外,分词还需要处理缩写词、复合词、数字、网址、电子邮件地址等特殊情况。

解析(Parsing)

解析是指分析文本的句法结构,确定词语之间的关系和整个句子的结构树的过程。解析器输出的结构树(通常称为依存树或短语结构树)可以揭示句子中各个成分是如何相互关联的,这对于理解句子的深层意义至关重要。

解析可以分为两种主要类型:

  1. 依存句法分析(Dependency Parsing):关注词语之间的直接依存关系,形成一个以词语为节点的有向图,其中每个词都连接到另一个词,表示其依存关系。

  2. 短语结构分析(Constituency Parsing):关注构成句子的短语层次结构,形成一个树状结构,树的叶子节点是单词,非叶节点表示短语或句子成分

通过搭配提取进行短语检测

通过搭配提取进行短语检测是自然语言处理(NLP)中的一种技术,主要用于识别文本中具有特定语义或语法关系的词汇组合,这些组合通常被称为短语或搭配(Collocations)。搭配是指在语言使用中倾向于一起出现的词汇组合,它们在意义上往往紧密相关,超出简单词汇的组合,体现了语言的固定表达习惯。

1.基于频率的方法

2.用于搭配提取的假设检验

3.文本分块和词性标注

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值