机器学习 -- 文本分析1 R语言

最新推荐文章于 2024-07-01 17:24:00 发布

There Uncle

最新推荐文章于 2024-07-01 17:24:00 发布

阅读量1.2k

点赞数

分类专栏： R 文章标签：机器学习 r语言人工智能

R 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1. 语言和建模

文本的机器学习和深度学习模型由计算机执行，但它们是由人类使用人类生成的语言设计和创建的。作为自然语言处理 (NLP) 从业者，我们将对语言是什么以及语言如何工作的假设带入从自然语言创建建模特征并将这些特征用作统计模型的输入的任务中。即使我们没有深入思考语言是如何运作的，或者当我们的理解不成熟或不准确时，情况也是如此。说一种语言与对该语言的工作原理有明确的了解是不同的。我们可以通过提高这些知识来改进我们的文本机器学习模型。

在本系列的整个过程中，我们将讨论从文本数据创建预测变量或特征，将统计模型拟合到这些特征，以及这些任务如何与语言相关。参与文本分析和文本建模日常工作的数据科学家通常没有接受过语言如何工作的正式培训，但有一个完整的领域专注于这一点，即语言学。

1.1 文本分析的语言学

Briscoe (2013) 对语言学是什么以及它如何与自然语言处理的实际计算领域相交提供了有益的介绍。语言学的广泛领域包括专注于语言不同方面的子领域，这些子领域有些分层，如表 1.1 所示。

表 1.1：语言学的一些子领域，从较小的结构转向更广泛的结构

语言学子领域	它关注什么？
语音学	人们在语言中使用的声音
音韵学	特定语言的声音系统
形态学	单词是如何形成的
句法	句子是如何由单词组成的
语义	句子是什么意思
语用学	如何在上下文中使用语言

这些领域各自研究语言展示组织的不同层次。当我们为文本数据构建监督机器学习模型时，我们使用这些组织级别来创建自然语言特征，即模型的预测变量或输入。这些特征通常取决于语言的形态特征，例如当文本被分解为循环神经网络深度学习模型的字符序列时。有时这些特征取决于语言的句法特征，例如模型何时使用词性信息。这些大致层次化的组织层次是将非结构化语言转换为可用于建模的数学表示的过程的关键。

同时，这种组织和语言规则可能是模棱两可的；我们为机器学习创建文本特征的能力受到语言本质的限制。宾夕法尼亚大学的语言学家比阿特丽斯·圣托里尼 (Beatrice Santorini) 从新闻头条中收集了语言歧义的例子：

Include Your Children When Baking Cookies

March Planned For Next August

Enraged Cow Injures Farmer with Ax

Wives Kill Most Spouses In Chicago

如果您不了解语言学家研究的内容以及他们对语言的了解，那么这些新闻头条就会很搞笑。对于语言学家来说，这些很有趣，因为它们表现出某种语义上的歧义。

另请注意，此列表中的前两个子字段是关于声音的，即语音。大多数语言学家认为语音是主要的，把语言写成文本是技术步骤。

书面文本通常没有我们希望的那么有创意，并且离主要语言更远。这指出了书面文本的建模在根本上是多么有限。想象一下，我们想要的抽象语言数据存在于某个高维潜在空间中；我们想以某种方式使用文本提取该信息，但这并不完全可能。我们创建的任何功能或我们构建的模型都具有固有的局限性。

1.2 形态学

对语言工作原理的深入了解如何为文本建模提供信息？让我们专注于形态学，研究单词的内部结构以及它们是如何形成的，以说明这一点。英文单词的长度为中到小；英语的语素（具有意义的最小语言单位）与单词的比例较低，而土耳其语和俄语等其他语言的语素与单词的比例较高（Bender 2013）。与此相关的是，语言可以是分析性的（如普通话或现代英语，将概念分解成单独的词）或综合性的（如匈牙利语或斯瓦希里语，将概念组合成一个词）。

形态学侧重于诸如前缀、后缀和词根之类的词素如何组合在一起形成单词。一些语言，如丹麦语，使用许多复合词。丹麦语单词如“brandbil”（消防车）、“politibil”（警车）和“lastbil”（卡车）都包含语素“bil”（汽车），并以表示汽车类型的前缀开头。由于这些复合词，一些名词似乎比它们的英语对应物更具描述性； “vaskebjørn”（浣熊）分为词素“vaske”和“bjørn”，字面意思是“洗熊”1。在使用复合词（例如德语）使用丹麦语和其他语言时，复合拆分以提取更多信息可能是有益的（Sugisaki 和 Tuggener 2018）。然而，即使是单词是什么的问题也被证明是困难的，不仅对于英语以外的语言。英语中的复合词，如“房地产”和“餐厅”代表一个概念，但包含空格。

文本数据集的形态特征与标记化（第2篇）、删除停用词（第 3 篇）甚至词干提取（第 4 篇）等预处理步骤密切相关。反过来，这些用于创建自然语言特征的预处理步骤会对模型预测或解释产生重大影响。

1.3 不同的语言

我们相信本书的大部分读者可能都是以英语为母语的人，而且训练机器学习模型时使用的大部分文本当然是英语。然而，英语绝不是全球的主导语言，尤其是作为母语或第一语言。作为我们家附近的一个例子，本书的两位作者中，一位以英语为母语，一位不是。根据全面而详细的民族志项目，世界上只有不到 20% 的人口会说英语。

Bender (2011) 为计算语言学家为任何语言构建文本模型提供了指导。她提出的一个具体观点是为正在研究的语言命名。

Do state the name of the language that is being studied, even if it’s English. Acknowledging that we are working on a particular language foregrounds the possibility that the techniques may in fact be language-specific. Conversely, neglecting to state that the particular data used were in, say, English, gives [a] false veneer of language-independence to the work.

这个想法很简单（承认我们构建的模型通常是特定于语言的）但是#BenderRule 已经导致人们更加意识到该领域当前状态的局限性。我们的书并非面向开发新方法的学术 NLP 研究人员，而是面向处理日常数据集的数据科学家和分析师；这个问题甚至对我们来说也很重要。命名训练模型中使用的语言（Bender 2019），并思考这对它们的普遍性意味着什么。我们将实践我们所宣扬的内容，并告诉您本书中用于建模的大部分文本是英语，还有一些文本是丹麦语和一些其他语言。

1.4 文本变化的其他方式

语言差异的概念仅与最广泛的语言级别（例如，英语、丹麦语、德语和波斯语）之外的建模相关。来自特定方言的语言通常无法通过使用来自相同语言但不包括该方言的数据训练的模型来很好地处理。美国使用的一种方言是非裔美国人白话英语 (AAVE)。经过训练以检测有毒或仇恨言论的模型更有可能将 AAVE 错误地识别为仇恨言论（Sap et al. 2019）；这令人深感不安，不仅因为该模型没有达到应有的准确度，还因为它放大了对已经边缘化群体的伤害。

语言也随着时间而变化。这是语言的一个已知特征。如果您注意到自己语言的演变，请不要沮丧或生气，因为这意味着人们正在使用它！十几岁的女孩在语言创新方面特别有效，并且已经持续了几个世纪（McCulloch 2015）；创新从年轻女性等群体传播到社会的其他部分。这是影响建模的另一个区别。

考虑两种文本，大部分都是标准的书面英语，但一种由推文组成，另一种由医疗文件组成。如果 NLP 从业者在推文数据集上训练一个模型来预测文本的某些特征，那么如果应用于医疗文档数据集，该模型很可能（实际上，根据我们的经验，很可能）表现不佳2 . 与一般的机器学习一样，文本建模对用于训练的数据非常敏感。这就是为什么我们对情绪分析 API 等 AI 产品持怀疑态度的原因，不是因为它们永远无法正常工作，而是因为它们只有在您需要预测的文本与此类产品的训练文本很好匹配时才能正常工作 .

1.5 总结

语言学是对语言如何工作的研究，虽然我们不认为现实世界的 NLP 从业者必须是语言学专家，但向这些领域专家学习可以提高我们模型的准确性以及我们对它们为什么这样做（或不这样做）的理解 't!) 表现良好。文本的预测模型反映了其训练数据的特征，因此随着时间的推移、方言之间以及各种文化背景下的语言差异可能会阻止在一个数据集上训练的模型适用于另一个数据集。大量的文本建模文献都集中在英语上，但英语并不是世界上的主要语言。