走向永无止境的语言学习架构

最新推荐文章于 2024-08-31 08:01:24 发布

Wwwilling

最新推荐文章于 2024-08-31 08:01:24 发布

阅读量551

点赞数

分类专栏：知识图谱文献阅读医疗人工智能推荐系统论文阅读文章标签：架构知识图谱深度学习人工智能机器学习

本文链接：https://blog.csdn.net/qq_43058281/article/details/121788782

版权

知识图谱文献阅读同时被 3 个专栏收录

22 篇文章 6 订阅

订阅专栏

推荐系统论文阅读

19 篇文章 1 订阅

订阅专栏

医疗人工智能

13 篇文章 12 订阅

订阅专栏

Article

作者：Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R. Hruschka Jr., and Tom M. Mitchell
文献题目：走向永无止境的语言学习架构

摘要

我们在这里考虑建立一个永无止境的语言学习者的问题；也就是说，一个永远运行的智能计算机代理，每天都必须
(1) 从网络中提取或读取信息以填充不断增长的结构化知识库，以及
(2) 学会比前一天更好地完成这项任务。特别是，我们为这样的代理提出了一种方法和一组设计原则，描述了这样一个系统的部分实现，该系统已经学会了提取包含超过 242,000 个信念的知识库，运行 67 天后估计精度为 74%，并讨论从构建永无止境的学习代理的初步尝试中吸取的经验教训。

引言

我们在此描述朝着培养永无止境的语言学习者这一长期目标的进展。 “永无止境的语言学习者”是指每天 24 小时、每周 7 天、永远运行的计算机系统，每天执行两项任务：

阅读任务：从网络文本中提取信息，以进一步填充不断增长的结构化事实和知识的知识库。
学习任务：每天比前一天学会更好地阅读，这体现在它能够返回昨天的文本来源并更准确地提取更多信息的能力。

这项研究的基础是网络信息的大量冗余（例如，许多事实以不同的方式多次陈述）将使具有正确学习机制的系统取得成功。这项研究的一种观点是，它是一项终身学习或永无止境的学习案例研究。第二种观点是，它试图提升自然语言处理的艺术水平。第三种观点是，它试图开发世界上最大的结构化知识库——一个反映万维网事实内容的知识库，这对许多人工智能工作都有用。
这项研究的基础是网络信息的大量冗余（例如，许多事实以不同的方式多次陈述）将使具有正确学习机制的系统取得成功。这项研究的一种观点是，它是一项终身学习或永无止境的学习案例研究。第二种观点是，它试图提升自然语言处理的艺术水平。第三种观点是，它试图开发世界上最大的结构化知识库——一个反映万维网事实内容的知识库，这对许多人工智能工作都有用。
在本文中，我们首先描述了一种构建永无止境的语言学习器的通用方法，该方法使用半监督学习方法、各种知识边缘提取方法的集合，以及允许集成这些方法输出的灵活知识库表示。我们还讨论了实现这种方法的设计原则。
然后，我们描述了我们方法的原型实现，称为永无止境的语言学习者 (NELL)。目前，NELL 获得两种类型的知识：（1）关于哪些名词短语指代哪些特定语义类别的知识，如城市、公司和运动队；（2）关于哪些名词短语对满足哪些特定语义类别的知识。指定的语义关系，例如 hasOfficesIn(organization, location)。 NELL 学习以多种方式获取这两种类型的知识。它学习自由格式的文本模式以从网络上的句子中提取知识，学习从半结构化网络数据（如表格和列表）中提取知识，学习类别实例的形态规律，并学习概率 horn 从句规则，使其能够从它已经学习的其他关系实例中推断出新的关系实例。
最后，我们展示的实验表明我们的 NELL 实现，给定初始种子本体定义 123 个类别和 55 个关系并运行 67 天，用 242,453 个新事实填充这个本体，估计精度为 74%。
这项工作的主要贡献是：（1）在构建永无止境的学习代理的架构方面取得进展，以及有助于成功实施该架构的一组设计原则，(2) 对该架构实现的网络规模实验评估，以及 (3) 迄今为止最大和最成功的引导学习实现之一。

方法

我们的方法是围绕一个共享知识库 (KB) 组织的，该知识库不断增长，并由一系列实现互补知识提取方法的学习/阅读子系统组件使用。起始 KB 定义了一个本体（定义类别和关系的谓词集合），以及该本体中每个谓词的少量种子示例（例如，十几个示例城市）。我们的方法的目标是通过阅读不断增长这个知识库，并学会更好地阅读。
添加到知识库中的类别和关系实例被划分为候选事实和信念。子系统组件可以从知识库中读取信息并参考其他外部资源（例如，文本语料库或互联网），然后提出新的候选事实。组件为每个提议的候选者提供一个概率以及支持它的源证据的摘要。 Knowledge Integrator (KI) 考试会分析这些提议的候选事实，并将其中最受支持的事实提升为信念状态。该处理流程如图 1 所示。
在我们最初的实现中，这个循环迭代地运行。在每次迭代中，给定当前 KB 的每个子系统组件都运行到完成，然后 KI 决定要推广哪些新提出的候选事实。知识库逐次迭代增长，提供越来越多的信念，然后每个子系统组件使用这些信念重新训练自己，以便在下一次迭代中更好地阅读。通过这种方式，我们的方法可以被视为实现了一种耦合的半监督学习方法，其中多个组件学习和共享由 KI 监督的互补类型的知识。可以将此方法视为对期望最大化 (EM) 算法的近似，其中 E 步骤涉及迭代估计共享 KB 中非常大的一组虚拟候选信的真值，而M步骤涉及重新训练各种子系统组件提取方法。
如果标签错误累积，这种迭代学习方法可能会受到影响。为了帮助缓解这个问题，我们将允许系统每天与人类互动 10-15 分钟，以帮助它保持“正轨”。但是，在此处报告的工作中，我们对人工输入的使用有限。
以下设计原则对于实施我们的方法很重要：
- 使用产生不相关错误的子系统组件。当多个组件产生不相关的错误时，它们都产生相同错误的概率是它们各自错误概率的乘积，从而导致错误率低得多。
- 学习多种类型的相互关联的知识。例如，我们使用一个组件学习从文本资源中提取谓词实例，另一个组件学习从知识库中的其他信念中推断关系实例。这提供了相同类型信念的多个独立来源。
- 使用耦合的半监督学习方法来利用正在学习的谓词之间的年龄限制（Carl son 等人，2010 年）。为了提供耦合机会，将类别和关系安排到一个分类法中，该分类法定义了哪些类别是其他类别的子集，以及哪些类别对是相互排斥的。此外，指定每个关系参数的预期类别以启用类型检查。子系统组件和 KI 可以从利用耦合的方法中受益。
- 将知识库中的高置信度信念与低置信度候选者区分开来，并保留每个信念的来源理由。
- 使用统一的 KB 表示来捕获所有类型的候选事实和提升的信念，并使用可以对这种共享表示进行操作的关联推理和学习机制。

实施

我们已经实施了我们方法的初步版本。我们将此实现称为无止境语言学习器 (NELL)。 NELL 使用四个子系统组件（图 1）：
- 耦合模式学习器 (CPL)：一种自由文本提取器，它学习和使用诸如“X 市长”和“X 为 Y 扮演”等上下文模式来提取类别和关系的实例。 CPL 使用名词短语和上下文模式（均使用词性标签序列定义）之间的共现统计来学习每个感兴趣的谓词的提取模式，然后使用这些模式来查找每个谓词的其他实例。谓词之间的关系用于过滤掉过于笼统的模式。 Carlson 等人详细描述了 CPL。 (2010)。使用公式 $1−0.5^c$ 启发式分配 CPL 提取的候选实例的概率，其中 c 是提取候选的提升模式的数量。在我们的实验中，CPL 被输入了一个包含 20 亿个句子的语料库，该语料库是通过使用 OpenNLP 包从 ClueWeb09 数据集的 5 亿个网页英文部分中提取、词性化和 POS-tag 句子生成的（卡兰和霍伊 2009）。
- Coupled SEAL (CSEAL)：一种半结构化的提取器，它使用来自每个类别或关系的一组信念查询互联网，然后挖掘列表和表格以提取相应谓词的新实例。 CSEAL 使用互斥关系提供反例，用于过滤掉过于笼统的列表和表格。 Carlson 等人也描述了 CSEAL。 (2010)，并基于 Wang 和 Cohen (2009) 提供的代码。给定一组种子实例，CSEAL 通过对知识库中的信念进行子采样并在查询中使用这些采样的种子来执行查询。 CSEAL 被配置为为每个类别发出 5 个查询，为每个关系发出 10 个查询，并且每个查询获取 50 个网页。 CSEAL 提取的候选事实使用与 CPL 相同的方法分配概率，除了 c 是提取实例的未过滤包装的数量。
- 耦合形态分类器 (CMC)：一组二元 L2 正则化逻辑回归模型 - 每个类别一个 - 根据各种形态特征（单词、大写、词缀、词性等）对名词短语进行分类。）。来自知识库的信念被用作训练实例，但在每次迭代时，CMC 仅限于具有至少 100 个提升实例的谓词。与 CSEAL 一样，互斥关系用于识别负面实例。 CMC 检查其他组件提出的候选事实，并在每次迭代中对每个谓词最多分类 30 个新信念，最小后验概率为 0.75。这些启发式测量有助于确保高精度。
- Rule Learner (RL)：类似于 FOIL（Quinlan 和 Cameron-Jones 1993）的一阶关系学习算法，它学习概率 Horn 子句。这些学习到的规则用于从知识库中已有的其他关系实例推断新的关系实例。
我们对知识集成器 (KI) 的实施使用硬编码的直观策略将候选事实提升为信念状态。来自单一来源的具有高置信度的候选事实（那些后验 > 0.9 的候选事实）被提升，如果它们被多个来源提出，则低置信度的候选事实被提升。 KI 通过尊重互斥和类型检查信息来利用谓词之间的关系。特别是，如果候选类别实例已经属于互斥类别，则不会提升它们，除非它们的参数至少是适当类别类型的候选对象（并且尚未被认为是某个类别的实例），否则不会提升关系实例。与适当类型互斥的类别）。在我们当前的实现中，一旦候选事实被提升为信念，它就永远不会被降级。 KI 配置为每次迭代每个谓词最多提升 250 个实例，但在我们的实验中很少达到这个阈值。
NELL 中的 KB 是基于东京内阁（一种快速、轻量级的键/值存储）的基于 THEO 帧的表示（Mitchell 等人，1991 年）的重新实现。 KB 可以在一台机器上处理数百万个值。

实验评估

我们进行了实验评估以探讨以下问题：
- NELL 是否可以通过数十次学习迭代来学习填充许多不同的类别（100+）和关系（50+）并保持高精度？
- 不同的组成部分对 NELL 所提倡的信念有多大贡献？

方法

我们实验中使用的输入本体包括 123 个类别，每个类别有 10-15 个种子实例和 5 个 CPL 种子模式（源自赫斯特模式 (Hearst 1992)）。类别包括地点（例如，山脉、湖泊、城市、博物馆）、人物（例如，科学家、作家、政治家、音乐家）、动物（例如，爬行动物、鸟类、哺乳动物）组织（例如，公司、大学、网站、运动队）等。包括了 55 个关系，每个关系也有 10-15 个种子实例和 5 个否定实例（通常是通过排列种子在立场中的参数生成的）。关系捕获不同类别（例如，teamPlaysSport、bookWriter、companyProducesProduct）之间的关系。
在我们的实验中，CPL、CSEAL 和 CMC 每次迭代运行一次。 RL 在每批 10 次迭代后运行，并且建议的输出规则由人工过滤。手动批准这些规则只需要几分钟。
为了估计 NELL 生成的知识库中信念的精确度，来自最终知识库的信念被随机抽样，并由几位人类法官进行评估。在做出决定之前，会详细讨论分歧的情况。曾经正确但现在不正确的事实（例如，一个运动队的前教练）被认为是正确的，因为 NELL 目前不处理其信念中的时间范围。允许使用虚假形容词（例如，“今天的芝加哥论坛报”），但很少见。

结果

在运行了 67 天后，NELL 完成了 66 次执行迭代。在所有谓词中提升了 242,453 个信念，其中 95% 是类别实例，5% 是关系实例。来自各种谓词的示例信念，以及提取它们的源组件，如表 1 所示。
在第一次迭代期间最初爆发了近 10,000 个信念之后，NELL 在每次连续迭代中继续推广数千个信念，这表明如果让它运行更长的时间，它具有学习更多的强大潜力。图 2 显示了 NELL 促销活动随时间变化的不同视图。左图显示了每次迭代中类别和关系的提升总数。类别实例的提升相当稳定，而关系实例的提升则是尖锐的。这主要是因为 RL 组件每 10 次迭代才运行一次，并且负责许多关系提升。右侧的图是堆叠条形图，显示了在不同迭代跨度期间具有不同促销活动级别的谓词的比例。这些图表明，在 NELL 的整个运行过程中，实例被提升为许多不同的类别和关系。
图 2：随着时间的推移，信仰的宣传活动。
左：每次迭代中为所有类别和关系谓词提升的信念数。在 RL 组件运行后，每 10 次迭代就会出现关系谓词之间的周期性尖峰。
中间和右侧：堆积条形图详细说明了随着时间的推移，类别和关系在各种促销活动级别上的谓词比例（和谓词计数，显示在条形内）。请注意，虽然一些谓词在早期变得“休眠”，但即使在后期的学习迭代中，大多数谓词仍继续表现出健康的促进活动水平。
为了估计在不同执行阶段提升的信念的精度，我们考虑了三个时间段：迭代 1-22、迭代 23-44 和迭代 45-66。对于这些时间段中的每一个，我们统一抽取了 100 个在这些时间段内被提拔的职位并判断它们的正确性。结果如表 2 所示。在三个时期内，提升率非常相似，提升了 76,000 到 89,000 个实例。估计精度有下降趋势，从 90% 到 71% 再到 57%。根据促销次数对这三个精度估计值进行加权平均，所有 66 次迭代的总体估计精度为 74%。
评委只讨论了几个项目：例子是“右后部”，被认为不是指身体部位，“绿叶沙拉”，被认为是一种可以接受的蔬菜。 “Proceedings”被宣传为出版物，我们认为这是不正确的（很可能是由于 CPL 中的名词短语分割错误）。两个错误是由于语言（“克林贡语”和“普通话”）被宣传为族群。（“Southwest”、“San Diego”）被标记为 hasOfficesIn 关系的正确实例，因为西南航空公司在那里没有正式的公司办公室。许多系统错误是微妙的；人们可能会认为非英语母语的读者会犯类似的错误。
为了估计谓词级别的精度，我们随机选择了 7 个类别和 7 个关系，这些关系至少有 10 个促进实例。对于每个选择的谓词，我们从迭代 1-22、23-44 和 45-66 中采样了 25 个信念，并判断它们的正确性。表 3 显示了这些谓词，以及每个时间段的精确度估计值和提升的信念数量。大多数谓词都非常准确，精度超过 90%。两个谓词，特别是cardGame 和productType，表现要差得多。 cardGame 类别似乎受到与赌场和纸牌游戏相关的大量网络垃圾邮件的影响，这会导致解析错误和其他问题。由于这种噪音，NELL 最终将形容词和名词的字符串（如“存款赌场奖金免费在线列表”）提取为不正确的卡片游戏立场。 productType 关系的大多数错误来自将产品名称与更多的通用名词相关联，这些名词与产品有某种关系，但没有正确指示产品的类型，例如，（“Microsoft Office”、“PC” ）。评委们对其中一些产品类型谎言进行了辩论，但最终被标记为不正确，例如（“Photoshop”、“图形”）。在我们的本体中，productType 的第二个参数的类别是层次结构中的一般“项目”超类别；我们假设更具体的“产品类型”类别可能会导致更严格的类型检查。
如实施部分所述，NELL 使用知识集成器来提升高可信度的单一来源候选事实，以及具有多个低可信度来源的候选事实。图 3 说明了此集成策略中每个组件的影响。显示的每个组件都包含一个计数，该计数是仅基于对该信念具有高置信度的来源而提升的信念数量。连接组件的线标有计数，这些计数是基于这些组件提升的信念数量，每个组件都对该候选者有一定程度的信心。 CPL 和 CSEAL 各自负责许多宣传自己的信仰。然而，KI 所提倡的信念中有一半以上是基于多种证据来源。虽然 RL 不对许多所提倡的信念负责，但它确实以高置信度提出的信念似乎在很大程度上独立于其他组件的信念 .
图 3：NELL 在 66 次迭代后推广的信念的来源计数。节点内的数字表示仅基于该组件提升的信念数量。边上的数字表示基于来自多个组件的证据所提升的信念。
RL 每次迭代平均学习 66.5 个新规则，其中 92% 被批准。 12% 的批准规则暗示了至少一个尚未被另一条规则暗示的候选实例，而这些规则平均暗示了 69.5 个这样的实例。
为了让大家了解 NELL 中使用的不同组件正在学习什么，我们为每个组件提供了示例。表 4 显示了 CPL 学习的上下文模式。表 5 显示了 CSEAL 学习的网页包装器。表 6 显示了来自 CMC 学习的逻辑回归分类器的示例权重。最后，表 7 显示了由 RL 诱导的示例规则。
补充在线材料我们评估的几种补充材料在线发布，包括：（1）所有被提升的实例，（2）所有类别、关系和种子实例，（3）所有被标记的实例被采样用于估计精度 , (4) CPL 推广的所有模式，以及 (5) RL 学习的所有规则。

讨论

这些结果是有希望的。 NELL 以一致的知识积累速度在许多迭代学习中保持高精度，所有这些都需要非常有限的人工指导。我们认为这是朝着我们建立永无止境的语言学习者目标的重大进展。 NELL 总共学习了 531 个耦合函数，因为 3 个不同的子系统（CMC、CPL 和 CSEAL）学习了 123 个类别，而 3 个不同的子系统（CPL、CSEAL 和 RL）学习了 55 个关系。
该系统的既定目标是每天阅读更多网络内容以进一步填充其知识库，并每天学习更准确地阅读更多事实。正如过去 67 天的 KB 增长所表明的那样，系统每天读取的数据确实更多。每天它还学习新的提取规则以进一步填充其知识库、基于形态逻辑特征的新提取器、从知识库中的其他信念推断未读为谎言的新 Horn 子句规则，以及利用 HTML 结构的新的特定于 URL 的提取器。尽管 NELL 的持续学习使其每天能够提取更多的事实，但提取的事实的精确度会随着时间的推移而缓慢下降。这部分是因为最简单的提取发生在早期迭代中，而后期迭代需要更准确的提取器才能达到相同的精度水平。然而，也有 NELL 犯错导致学习犯更多错误的情况。尽管我们认为当前的系统很有前景，但仍有许多研究要做。
结果通常支持我们使用主要产生独立错误的组件的设计原则的重要性。超过一半的信念是基于来自多个来源的证据得到提升的。然而，在查看系统所产生的错误时，很明显 CPL 和 CMC 的错误并非完全不相关。例如，对于bakedGood 类别，CPL 学习模式“X are enabled in”，因为相信实例“cookies”。这导致 CPL 提取“持久性 cookie”作为候选烘焙食品。 CMC 输出以“cookies”结尾的短语的高概率，因此“persistent cookies”被提升为bakedGood的可信实例。
这种行为，以及 NELL 提倡的信念精确度缓慢但稳定的下降，表明有机会在学习过程中利用更多的人际互动。目前，这种交互仅限于批准或拒绝 RL 提出的推理规则。但是，我们计划探索其他形式的人工监督，限制为每天大约 10-15 分钟。特别是，主动学习（Settles 2009）通过允许 NELL 就其信念、理论甚至不确定的特征提出“疑问”，从而带来了很大希望。例如，像“X are enabled in”这样的模式只可能出现在一些 bakeGood 类别的实例中。这可能是导致语义漂移的糟糕模式，也可能是发现一些未发现的 bakeGood 类别子集的机会。如果 NELL 能够充分识别此类知识机会，人类就可以轻松地为这种单一模式提供标签，并在几秒钟内传达大量信息。以前的工作表明，标记特征（例如，上下文模式）而不是实例可以在减少人工注释时间方面带来显着改进（Druck、Settles 和 McCallum 2009）。

结论

我们为永无止境的语言学习代理提出了一种架构，并描述了该架构的部分实现，该架构使用四个子系统组件学习以互补的方式提取知识。在运行 67 天后，该实现以 74% 的估计精度填充了超过 242,000 个事实的知识库。
这些结果说明了使用适合学习的多种知识提取方法以及允许存储候选事实和自信信念的知识库的好处。但是，有很多改进的机会，包括：(1) 自我反思来决定下一步做什么，(2) 更有效地利用 10-15 分钟的日常人际互动，(3) 发现要学习的新谓词，(4) 学习有关语言的其他类型的知识，(5) 实体级（而不是字符串级）建模，以及 (6) 整个过程中更复杂的概率建模执行。

Wwwilling

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
走向永无止境的语言学习架构

Article作者：Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R. Hruschka Jr., and Tom M. Mitchell文献题目：走向永无止境的语言学习架构文献时间：2016发表期刊：nature摘要我们在这里考虑建立一个永无止境的语言学习者的问题；也就是说，一个永远运行的智能计算机代理，每天都必须(1) 从网络中提取或读取信息以填充不断增长的结构化知识库，以及(2) 学会比
复制链接

扫一扫