How Did Watson Answer? —— Relation Extraction

原创 2015年11月19日 11:09:42

一、摘要

Watson中关系抽取通过两种方式进行——一是基于规则的模式匹配,二是基于统计模型的模式导出(pattern elicitation)。其中人工模式有30种,统计模式有7000种。之所以使用关系抽取,是为了在ESG、PAS的基础上发现更深层次的语义关系,发现潜在的问题候选答案,当然也有利于对文章内容进行评分。
系统高级架构如下图:
系统高级架构

二、基于规则的关系抽取

规则都是由人工建立的,选择建立规则依据的是对历史《Jeopardy!》问题中动词和名词的词汇分析,找出出现频率最高的LAT,然后针对性地建立匹配规则。这些挑选出来的关系一般有两个特点,1)在某一领域特别显著的,2)明显在全部问题数据中都出现的。规则像之前介绍的,都是用Prolog语言写的,并且与PAS中的模式匹配保持一致。

三、基于统计方法的关系抽取与内容评分

(一)关系实例的内部表示

表示关系的句子都会被表示成多种特征,包括:1)关系变元(argument)、2)语法特征(比如说,宾语和两个变元之间依赖路径上的单词)、3)整句话中的单词。
关系变元的类型是有YAGO来指定的,两个变元之间的依赖路径则是抽取自ESG分析书,这两部分最后都将被过滤为五种词性——形容词、副词、名词、介词、动词。

(二)从Wikipedia和DBpedia中抽取训练数据

训练数据由两部分组成,一是DBpedia中的关系实例,二是Wikipedia对应页面中的描述语句。

1.收集训练数据

收集算法假设包好特定infobox属性的Wikipedia页面会在文本中表达关系的描述,进一步假设关系会在页面第一句提到关系变元处表达这种关系。

2.检索变元类型

DBpedia只是库中的关系与YAGO类型系统是有对应和关联的,所以可以利用YAGO、Wikipedia、DBpedia三者共同检索关系变元的类型。

(三)关系专题(Relation Topics)

关系专题是已有的DBpedia的关系的多项分布,通过已有关系间的无监督分析来自动生成,并且彼此之间是正交的。作为关系特征,关系专题可以直接(在核函数处理之后)在SVM分类器中使用,从而提供很好的评价问题与内容的相似度的方法,同时,也能够在关系实例候选中检测关系是否存在。(好吧,我也不知道这是在说啥,慢慢往下看吧)

(四)使用关系专题的关系检测

SVM分类器图解
如上图中所示,SVM分类器综合使用了关系专题、变元匹配、依赖路径、共同词语等多种特征来进行训练和分类,但这些都先经过了核函数的处理。核函数在EMNLP论文《Relation extraction with relation topics》疑问中有详解。

1.训练

在DBpedia和Wikipedia中获取的训练数据中,已经给出了关系实例,可以用来直接训练模型。

2.测试

测试主要分为检测变元对、检测变元顺序、过滤、应用四大步,其中应用是指把所有的关系检测器都放到待测实例中来抽取语义关系。

(五)使用关系专题的非结构化内容评分

对于关键词非常不同,但是实体关系相同的问题和候选答案,使用语义关系评分将给出很高的分数。最直观的方法即是将问题和内容中的所有关系都抽取出来并进行比较,但7000多种关系应用到大量文章上的时间开销是不能承受的。所以,改为了使用关系专题空间(Relation Topic Space)来解决这个问题,因为相关关系的实例在这个空间中是组织在一起的。将问题和内容的关系都映射到关系专题空间中之后,直接用余弦距离评价相似度即可。

四、DeepQA中的使用

(笔者注:还记得Watson的答题框架是叫DeepQA吧?)
在问题分析中,使用关系抽取来找出问题中题眼和每个命名实体之间的关系,也找出候选内容的命名实体与关系变元的关系;
在PRISMATIC知识库中融合关系抽取的结果,从而支持搜索和候选评分;
当然诸如地理空间关系、时间序列的处理也需要关系抽取的结果作支持。

How Did Watson Answer?

Watson是IBM公司为参加《Jeopardy!》(中文译名《危险游戏!》)而开发的QA系统。本文讲述了Watson的大概构成与工作流程。...
  • Air_Fighter
  • Air_Fighter
  • 2015年11月06日 17:03
  • 731

Neural Relation Extraction(神经关系抽取)的两篇文章

文章一《Neural Relation Extraction with Selective Attention over Instances》 该论文中提到的Distant supervised是一...
  • liuyuemaicha
  • liuyuemaicha
  • 2017年05月09日 15:17
  • 2546

How Did Watson Answer —— Final Merging and Ranking

一、摘要Watson答题处理流程的最后一步是答案的合并与排序。在这一步中,实现了按步骤划分并且可以逐次的机器学习框架,可以利用每一步中候选答案的评分,按照多个特征综合评分。 Watson中使用机器学...
  • Air_Fighter
  • Air_Fighter
  • 2015年11月24日 11:23
  • 266

How Did Watson Answer? —— Implicit Relationships

为了发现和衡量问题中的隐含关联、模糊关系,Waston采取了一种称为传播激活(Spreading-Activation)的方法。...
  • Air_Fighter
  • Air_Fighter
  • 2015年11月23日 14:49
  • 347

论文阅读 - 《Neural Relation Extraction with Selective Attention over Instances》

作者:xg123321123出处:http://blog.csdn.net/xg123321123/article/details/53218870声明:版权所有,转载请联系作者并注明出处1 问题定义...
  • xg123321123
  • xg123321123
  • 2016年11月18日 16:52
  • 1318

How Did Watson Answer? —— Deep Parsing

Watson中使用了两种分析器——ESG(English Slot Grammar)和PAS(Predicate-Argument Structure)。PAS建构在ESG之上,以支持更高层的语法分析...
  • Air_Fighter
  • Air_Fighter
  • 2015年11月16日 16:30
  • 312

[论文阅读笔记]Neural Relation Extraction with Selective Attention over Instances

这篇论文主要介绍了一个弱监督的关系抽取算法。主要思想是对于每一对实体对,存在多个句子,表达实体之间的关系,传统的方法认为包含两个实体的句子都表示两个实体之间的关系,作为弱监督语料,弱监督必然伴随着错误...
  • u014268445
  • u014268445
  • 2016年10月07日 09:35
  • 372

How Did Watson Answer —— Computation Optimization

本文主要介绍DeepQA架构中大量的并行计算如何进行和加速,以及针对CPU计算的优化。并行加速无非就是将一项大任务切分为几个子任务同时进行,这个框架名字叫“非结构化信息管理架构”(UIMA, Unst...
  • Air_Fighter
  • Air_Fighter
  • 2015年11月25日 17:38
  • 274

How Did Watson Answer? —— Search & Candidate Generation

前面两篇文章分别介绍了如何处理事实性问题和特殊类型问题,今天的这篇主要介绍如何处理通用问题。...
  • Air_Fighter
  • Air_Fighter
  • 2015年11月12日 15:45
  • 580

How Did Watson Answer? —— Textual Evidance

Waston中使用“支持证据检索”对每个候选答案进行并行的独立的查询,检索算法中综合了题干和文章中的多个要素和关系。...
  • Air_Fighter
  • Air_Fighter
  • 2015年11月18日 15:10
  • 409
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:How Did Watson Answer? —— Relation Extraction
举报原因:
原因补充:

(最多只允许输入30个字)