第二篇 主要技术和代表性论文
2.1 信息抽取概况
目前的信息抽取多是基于句子为单位进行分析。篇章性推理是NLP研究的一个难点,后面将会叙述在我实际工作中关于这一方面的经验总结。
2.2 命名实体识别
命名实体识别是信息抽取的基础,是第一步,也是必须的一步。命名实体识别主要识别句子中出现的实体名。传统的实体名包括Person,Location,Organization,Time。具体的实体类型往往根据所研究的具体的问题而定。在合同抽取的问题,另一个至关重要的实体名就是合同名。在医疗领域还包括疾病名,检查,药名,化学物质等。目前的软件中一般只包括简单的实体名识别,定制化的命名实体识别还需要构建。
下面直接语料例子:
“近日,神州长城股份有限公司收到公司 全资子公司神州长城国际工程有限公司与 PT.WANXIANG NICKEL INDONESIA签署 的《印度尼西亚镍铁厂 RKEF 生产线工程 PC 总承包项目》,合同暂定金额 15.015 亿人民币。”
2.3 关系抽取
关系抽取是抽取实体之间语义关系。一种特别的关系抽取是属性关系抽取。关系抽取又可以根据关系类型是否提前定义,分为封闭式关系抽取和开放式关系抽取。 另外按照参与的实体数,可以分为二元关系抽取和多元实体关系抽取。
封闭式关系抽取是提前划分为关系类型,然后将关系分类到提前预定义类型之中。属于典型的分类问题,也是应用最多的一种关系抽取类型。在公告抽取中,比如A公司和B公司之间的关系类型有:子公司,收购等。上面的公司关系为例,最简单的关系抽取可以分为A,B公司是否收购关系。进而也可以是A,B公司的关系是否为收购,子公司,其他关系。 这些需要事先定义。
而开放式关系抽取则是要抽取A,B公司语句中出现的所有关系类型。 目前的一般都是通过抽取A,B公司之间的触发动词,然后将所有的动词类型进行分类。开放式的抽取的优点是可以找到所有的关系,缺点是在关系提取中,由于都是按照动词触发的假设,导致模型的精度明显较低,而且在得到所有关系以后,还需要对其进行归类。 具体的开放式关系抽取,下面将以一篇论文为例。
2.3.1 封闭式
2.3.2 开放式
2.4 属性抽取
郭剑毅等,领域本体概念实例,属性和属性值的抽取及关系预测,2012
分析框架:
分为概念实例,属性,属性值。类比于合同的抽取。限定合同金额抽取,不同的合同名对应合同这一概念实例,属性则唯一限定为合同金额,属性值则为金额数值。除此之外,财务指标的抽取也可以划分为此类范畴。比如抽取A公司的ROE等。此时如果在A公司的年报进行抽取,概念实例一般就是A公司,不需要进行进一步的抽取。但是如果研究公告内容,则会发现:(1)A公司以及和属性一般不会出现同一个句子之中,大多会跨句,因此需要“指代消解”。(2)虽然可以限定抽取的概念实例就是A公司,但是也存在一些段落可能并非指向A公司。(3)时间和比较。往往属性值限定为某一段时间,或者和前面的比较。因此具体的抽取还需要具体问题具体分析。
抽取的模型和思路
外部的资源和结果
CRF++和libsvm软件工具包
分词和词性标注工具
语料和人工标注
康睿智,面向军事装备实体的属性抽取
事装备属性抽取问题,提出了一种面向自由文本的无监督三元组方法。首先利用统计分析对性三元组在子句中的分布规律进行研究,发现了属性名固定,相对位置规律。然后针对提出一种基于频繁模式挖掘属性指示词抽取算法,并以取出的属性指示词为触发,结合抽规则和过滤进一步完成三元组的抽取.实验结果表明该方法能够有效出军事装备属性三元组,其平均准确率达到了88.1%.
2.5 事件抽取
事件抽取,是抽取固定的事件描述语句,是信息抽取领域的一个重要并且更加难的研究方向。通常来说,事件抽取包括两个阶段,事件类别识别以及事件元素识别。目前的事件的研究有两个假设:1.大多是基于句子,跨句子事件研究又称为基于主题的事件研究;2.大多都是动词驱动。
下面将以赵妍妍等,中文事件抽取技术研究来讲述事件抽取的典型过程。
基本概念
事件类别识别:比如下面讲的是“出生”事件,是一个分类工作。
事件元素识别:定义该事件的细节,出生事件包括人,出生时间与地点,这是一个提取加分类工作。
基本的方法:
主要是模式匹配和机器学习方法。目前主要是机器学习方法。
事件类别识别
1. 触发词挑选出候选事件。
触发词与事件类别的二元对照表
2. 候选事件的分类
事件元素识别
F1 =60%
李江龙,2017 金融领域的事件句识别
做一个打分模型,考虑包含公司名的数量,金融领域动词,句子位置,句子和标题的相似度。F1=65%. 在处理,合同中标事件中,一般的触发词“签署”;事件模版可以是A公司,B公司,时间,合同名。