信息抽取学习笔记

最新推荐文章于 2025-03-15 14:37:17 发布

Richard_More

最新推荐文章于 2025-03-15 14:37:17 发布

阅读量1w

点赞数 2

分类专栏：私人笔记

本文链接：https://blog.csdn.net/Richard_More/article/details/82016456

版权

私人笔记专栏收录该内容

3 篇文章

订阅专栏

第二篇主要技术和代表性论文

2.1 信息抽取概况
目前的信息抽取多是基于句子为单位进行分析。篇章性推理是NLP研究的一个难点，后面将会叙述在我实际工作中关于这一方面的经验总结。
2.2 命名实体识别
命名实体识别是信息抽取的基础，是第一步，也是必须的一步。命名实体识别主要识别句子中出现的实体名。传统的实体名包括Person，Location，Organization，Time。具体的实体类型往往根据所研究的具体的问题而定。在合同抽取的问题，另一个至关重要的实体名就是合同名。在医疗领域还包括疾病名，检查，药名，化学物质等。目前的软件中一般只包括简单的实体名识别，定制化的命名实体识别还需要构建。

下面直接语料例子：

“近日，神州长城股份有限公司收到公司全资子公司神州长城国际工程有限公司与 PT.WANXIANG NICKEL INDONESIA签署的《印度尼西亚镍铁厂 RKEF 生产线工程 PC 总承包项目》，合同暂定金额 15.015 亿人民币。”

2.3 关系抽取

关系抽取是抽取实体之间语义关系。一种特别的关系抽取是属性关系抽取。关系抽取又可以根据关系类型是否提前定义，分为封闭式关系抽取和开放式关系抽取。另外按照参与的实体数，可以分为二元关系抽取和多元实体关系抽取。

封闭式关系抽取是提前划分为关系类型，然后将关系分类到提前预定义类型之中。属于典型的分类问题，也是应用最多的一种关系抽取类型。在公告抽取中，比如A公司和B公司之间的关系类型有：子公司，收购等。上面的公司关系为例，最简单的关系抽取可以分为A，B公司是否收购关系。进而也可以是A，B公司的关系是否为收购，子公司，其他关系。这些需要事先定义。
而开放式关系抽取则是要抽取A，B公司语句中出现的所有关系类型。目前的一般都是通过抽取A，B公司之间的触发动词，然后将所有的动词类型进行分类。开放式的抽取的优点是可以找到所有的关系，缺点是在关系提取中，由于都是按照动词触发的假设，导致模型的精度明显较低，而且在得到所有关系以后，还需要对其进行归类。具体的开放式关系抽取，下面将以一篇论文为例。

2.3.1 封闭式

2.3.2 开放式

2.4 属性抽取

郭剑毅等，领域本体概念实例，属性和属性值的抽取及关系预测，2012
分析框架：
分为概念实例，属性，属性值。类比于合同的抽取。限定合同金额抽取，不同的合同名对应合同这一概念实例，属性则唯一限定为合同金额，属性值则为金额数值。除此之外，财务指标的抽取也可以划分为此类范畴。比如抽取A公司的ROE等。此时如果在A公司的年报进行抽取，概念实例一般就是A公司，不需要进行进一步的抽取。但是如果研究公告内容，则会发现：（1）A公司以及和属性一般不会出现同一个句子之中，大多会跨句，因此需要“指代消解”。（2）虽然可以限定抽取的概念实例就是A公司，但是也存在一些段落可能并非指向A公司。（3）时间和比较。往往属性值限定为某一段时间，或者和前面的比较。因此具体的抽取还需要具体问题具体分析。
这里写图片描述

抽取的模型和思路
这里写图片描述

外部的资源和结果
CRF++和libsvm软件工具包
分词和词性标注工具
语料和人工标注

康睿智，面向军事装备实体的属性抽取
事装备属性抽取问题，提出了一种面向自由文本的无监督三元组方法。首先利用统计分析对性三元组在子句中的分布规律进行研究，发现了属性名固定，相对位置规律。然后针对提出一种基于频繁模式挖掘属性指示词抽取算法，并以取出的属性指示词为触发，结合抽规则和过滤进一步完成三元组的抽取.实验结果表明该方法能够有效出军事装备属性三元组，其平均准确率达到了88.1%.
2.5 事件抽取
事件抽取，是抽取固定的事件描述语句，是信息抽取领域的一个重要并且更加难的研究方向。通常来说，事件抽取包括两个阶段，事件类别识别以及事件元素识别。目前的事件的研究有两个假设：1.大多是基于句子，跨句子事件研究又称为基于主题的事件研究；2.大多都是动词驱动。
下面将以赵妍妍等，中文事件抽取技术研究来讲述事件抽取的典型过程。

基本概念
事件类别识别：比如下面讲的是“出生”事件，是一个分类工作。
事件元素识别：定义该事件的细节，出生事件包括人，出生时间与地点，这是一个提取加分类工作。
这里写图片描述
基本的方法：
主要是模式匹配和机器学习方法。目前主要是机器学习方法。

事件类别识别
1. 触发词挑选出候选事件。
触发词与事件类别的二元对照表
2. 候选事件的分类