基于深度学习的自然语言处理--笔记（第七章）

最新推荐文章于 2024-05-21 00:51:35 发布

以牺牲自由为代价的自由

最新推荐文章于 2024-05-21 00:51:35 发布

阅读量224

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_42623328/article/details/108284351

版权

第7章 NLP特征的案例分析

文章目录

前言
- 7.1 文本分类：语言识别
# 7.2 文本分类：主题分类

前言

在讨论了用于从自然语言文本中获取特征的各种不同信息来源之后，我们将探讨具体的NLP 分类任务示例，以及适合它们的特征。

7.1 文本分类：语言识别

在语言识别任务中，给定一个文档或一个句子，希望将其归类为一组固定的语言。
字母级二元文法词袋（ bag of tt bigrams ）是这个任务的非常强的特征表示。具体来说，每个可能的二阶字母对是一个核心特征，对于给定的文档，其核心特征的值是该特征在文档中的计数。

# 7.2 文本分类：主题分类

在主题分类任务中，对于给定的文档，需要将它归类为一组预定义的主题（如经济、政治、体育、休闲、八卦、生活方式等）。
这里，字母级别的信息不是很翔实，我们将词作为基本单位。
当使用线性分类器时，我们可能还需要考虑单词对，即考虑在同一文档中出现的单词（不一定是连续的）作为核心特征。
在使用词袋时，有时将每个单词按其信息比例加权是有用的，例如使用 tf-idf 加权。然而，学习算法往往能够自己来加权。另一个选项是使用词指示器而不是词计数：文档中的每个单词（或超过给定计数的每个单词）都将表示一次，而不管它在文档
中出现的次数。

7.3 文本分类：作者归属

在作者归属任务中，对于给定的文本，推断它的作者身份（从一组可能的作者中），或者文本的作者的其他特征，例如他们的性别、年龄或者母语。
用于解决此任务的信息类型与主题分类非常不同：线索很微妙，涉及文本的文体属性，而不是内容词
作者归属任务一个很好的特征集合包括：功能词与代词词袋，词性词袋，词性的文法、三元文法、四元文法词袋。此外，我们可能要考虑功能词的密度（即功能词与文本窗口中的内容词数量之间的比值）、删除内容词后的功能词，元文法词袋与连贯功能词之间的距离分布。

7.4 上下文中的单词：词性标注

在词性标注任务中，给定一个句子，我需要给句子中的每个单词分配正确的词性。词性来自于一个预定义的集合。
词性标注通常被建模为一个结构化任务——第一个单词的词性可能依赖于第三个词的词性，但其可以很好地近似为基于某个单词两侧大小为 2 的窗口为其分配一个词性标签的任务。如果按固定顺序标注这些单词，例如从左到右，我们还可以对标签预测进行标记，以对以前标记所做的每一个标注进行排序。

重叠特征
如果我们将单词形式化为特征，为什么需要前级和后缀？毕竟它们是这个词的确定性函数。原因是，如果遇到一个在训练中没有看到的词（未登录词）或很少出现的词（罕见的词），我们可能没有足够多的信息来做出决定。在这种情况下，最好将前
缀和后缀作为补偿，这可以提供有用的提示。通过包括前缀和后缀以及在训练中多次观察到的单词，我们允许学习算法更好地调整它们的权重，并希望在遇到未登录词时能够正确地使用它们。

7.5 上下文中的单词：命名实体识别（NER)

在命名实体识别 (NER）任务中，给定一篇文档，需要找到命名实体，如 Milan, John Smith McCormik Industries 以及 Paris ，将它们归类为一组预定义的类别，如位置、机构、人物或其他。
值得注意的一点是，这项任务是依赖于上下文的，比如 Milan 可以代表位置（城市），也可以代表机构（运动队），再比如 Paris 可以代表城市名也可以代表人物.
虽然 NER 是一个序列分割任务——它分配标记括号超过非重叠的句子跨度，但它通常被建模为序列标注任务，类似于词性标注使用标注来解决分割任务一般都是用 BIO。每个单词都被分配了下列标签之一，如下：
在这里插入图片描述
例子：
John Smith, president of McCormik Industries visited his niece Paris in Milan, reporters say .

标注结果:
John/ B-PER Smith/ I PER, / O president/ O of/O McCormik/B-ORG Industries/ I-ORG visited/O his/O niece/O Paris/ B-PER in/ O Milan/B-LOC reporters/ O say/O. /O

7.6 行下文中单词的语言特征：介词词义消歧

介词如 on in 以及 for 等，用于将谓语与它的论元以及名词与它的前置修饰词连接起来。介词非常常见，也易引起歧义！
为了充分理解句子的含义，你应该知道句中介词的正确含义。介词消歧任务处理是从有限的语义集合中选择正确的意义分配给上下文中的介词

介词语义消歧任务是一个高层次的语义分类问题。为此，我们需要一组无法从字面中轻易推断出来的特征，并且可以利用从语言预处理（即词性标注和句法分析）以及手工编篡的语义词汇资源中选择的信息片段。

7.7 上下文中单词的关系：弧分解分析

对任务建模的一种方法是弧分解（ arc-factored ）法，其中每个可能的 $n^2$ 个词-词关系（arc ）被分配一个独立的分数，然后我们搜索得到一个最大化总体分数的有效的树。分数通过训练好的打分函数 $A R C S C O R E (h, m, s e n t)$ 分配，接收给定的句子以及句子中分配的候选词对 $h 和 m$ (h 是候选头词的索引，是候选修饰词的索寻）。