CN-ProbaseAData-drivenApproachforLarge-scaleChineseTaxonomy Construction

最新推荐文章于 2022-12-02 13:47:41 发布

四时风间

最新推荐文章于 2022-12-02 13:47:41 发布

阅读量860

点赞数 1

文章标签： sql 数据库 nosql

本文链接：https://blog.csdn.net/vaova/article/details/105190798

版权

本文由陈金东，王敖，陈江洁，肖仰华，朱振东，刘景平，梁家清，王伟等老师学者发表

中心思想：
分类法在机器智能中扮演着重要角色。大多数著名的分类法都是英文，非英文分类法，尤其是中文分类法更少见。本文致力于自动中文分类法的构建并提出了有效的生成和验证框架来构建大规模，高质量的中文分类法。

语义网络和概念分类法在许多应用中作用越来越重要。
概念分类法=实体+概念+上-下位词（即isA关系）。
举例：苹果是水果，而水果是苹果的代名词。由于上位词的反义词是下位词，所以苹果是水果的下位词。
使用表达式isA（A，B）来表示上-下位词-即关系，这就说明A是B的下位词。

中文复杂性高、资源较少、表达灵活、语法规则多。本文通过中文百科全书网站自动构建大规模，高质量的中文分类法。观察结果是在中文百科全书中有多个来源，包括括号，摘要，信息框，标记。强调这些信息尚未充分利用以前的工作，所以充分利用这些信息就能够找到大量isA关系，标签包含噪音，并且从三元组和文本推出的上位词仍然容易出错。为解决从标签中提取错误isA对，提出了一个生成和验证框架，框架输入是中文百科全书。在生成步骤中，利用不同的算法从中文百科全书的多个来源中提取isA关系，从而确保了覆盖范围。候选isA关系是通过合并从中文百科全书的不同来源生成的所有isA关系而产生。

通过四种相应的算法从中文百科全书的四个来源（即括号，摘要，信息框和标签）获取isA关系。
分离算法：用于从括号中的名词化合物中获取实体的上位词。算法输入是一个表示为e（x）的歧义实体，其中e是实体名称，x是名词化合物。通过对x进行分词，令（x1，x2，…，xn）为长度为n的单词序列，具体算法需自行阅读论文。算法输出是二叉树，提取所有叶节点以及二叉树的最右边路径作为上位词。
神经生成用于从实体的摘要中获取实体的上位词。首先利用远程监督构造数据集{（x1，y1），（x2，y2），…，（xn，yn）}，其中n是样本数。提出谓词发现以从信息框中获取isA关系。首先，应用远程监督来发现隐含的isA关系之类的谓词。具体来说，使用从括号中提取的isA关系作为先验知识，因为它们的精度超过96％。然后，我们使用这些isA关系对齐SPO三元组，并发现总共341个候选谓词。但是，这些候选对象中有杂音。为了进一步净化这些候选者，我们手动选择12个谓词作为隐式isA关系，以从其对应的SPO三元组中获取isA关系。直接提取用于从标签获取isA关系。标签是用于描述中文百科全书中实体的单词或短语。大部分标签是实体的上位词，直接将标签视为实体的上位词。

为过滤在生成模块中产生的错误isA关系，并提高精度，提出了三种有效的启发式策略：

不兼容的概念：具有共同实体则兼容如歌手和演员，没有实体共享则不兼容，通过检测不兼容的概念对筛选错误的isA关系。包括两个步骤：不兼容的概念对构造和错误的isA关系检测。 1、基于两个概念的下位集之间的 Jaccard相似性和概念属性分布之间的余弦相似度构造不兼容的概念对。 2、给定实体e及两个不兼容概念c1和c2，通过KL散度检测错误的一个：vatt（e）和vatt（c）是实体e和概念c属性分布，然后用更大KL分数过滤概念。
命名实体识别：由于NE通常不是实体的上位词，因此，上位词是否为命名实体（NE）在检测错误的isA关系中起着重要作用。可通过识别NE上位词发现错误的isA关系，再进一步使用“噪声或”模型组合。噪声或模型的基本原理是放大支持信号。根据经验设置阈值，并过滤支持度s（H）大于阈值的isA关系。
基于语法规则，使用语法规则进一步过滤错误isA关系。

最典型的规则：

好的上位词不应是诸如政治，军事之类的主题词，过滤词典中isA关系，其isA的上位词；
上位词的词首不出现在下位词的非首位置。

将拟议的框架应用于中文百科全书，构建大规模和高质量的中国分类法，实验数据源：CN-DBpedia 是由百度百科、沪东百科和中文维基百科衍生的最大开放域汉语百科全书之一。指标：五个常用指标：实体数量，概念和isA关系，精度和覆盖率。基线：将CN-Probase与著名中国分类法比较，从三个方面（含义，传递性，POS）使用三种启发式方法过滤转换错误。
与其他中文分类法相比，CN-Probase在实体，概念和isA关系的数最多。主要原因是从多种中文百科全书中提取isA关系，CNProbase精确度高达95％。由于各种噪声源，简单的跨语言翻译无法产生高质量中文分类法。 CN-Probase比其他中文分类法有更多的概念和实体，通过检查CN-Probase对QA任务的覆盖范围来衡量理解文本方面的有效性。如果一个问题在分类法内至少包含一个概念或实体，则问题被认为属于分类法。