Information Extraction

最新推荐文章于 2023-03-09 20:44:20 发布

寂寞灵魂

最新推荐文章于 2023-03-09 20:44:20 发布

阅读量599

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/riverflowrand/article/details/52860651

版权

NLP 专栏收录该内容

49 篇文章 1 订阅

订阅专栏

这是《语音和语言识别》第二十二章的笔记

命名实体识别
关系探测和分类
时间和事件处理
模板填充
高级主题：生物医药学的信息提取

关系探测和分类

监督型学习方法

可以把这个问题拆分成两个步骤：

判断两个候选项之间是否存在关系：使用一个二类分类器
给关系打上标签：使用多类分类器如朴素贝叶斯、决策树、最大熵

对于特征项的选取：

候选项的实体类型
实体类型的连接
候选项前几个词语
候选项的词袋、bigram词袋
两个候选项之间的词语数目
两个候选项之间的实体数目
整个句法树
组块路径
依存路径
两个候选项在句法树上的路径

轻的监督型学习方法

使用种子正则模式来生成新的正则模式。
e.g.

/[ORG] has a hub at [LOC]

使用这个正则模式我们在google News里发现了一个句子：

Ryanair has a hub at Charleroi

那么接下来使用Ryanair、Charleroi、hub发现了新的模式：

/[ORG], which uses [LOC] as a hub
/[ORG]’s hub at [LOC]
/[LOC] a main hub for [ORG]

新得到的模式的得分：

Conf = hits * log(finds)/ (hits + misses)

hits：在搜索文档D的时候，新模式p匹配到的元组在已有模式集T里的数目
missed: 在搜索文档D的时候，新模式p匹配到的元组不在已有模式集T里的数目
finds：在搜索文档D的时候，新模式p匹配到的所有元组

关系探测系统的评估

给出一篇文章，系统能发现和分类出多少个文章里的关系
系统能发现多少对元组（不考虑关系）

时间和事件处理

主要有三个方法：

在浅层句法分析、组块分析上的基于规则的系统
基于统计的IOB编码方法
基于成分的方法

方法1：
由于“时间”在句法分析里，只会出现在名词短语、形容词短语、副词短语中，在句法分析后，在这三类短语里，如果符合时间的正则模式，则认为这个部分为“时间”。

方法2：
归结为序列标注问题。

方法3：
句法分析后，在上面提到的三种短语里，进行序列标注。

所有这三种方法的主要缺点是不能打到合理的覆盖。比如有的人名也包含时间，比如“赵九月”是一个人名。

时间正则化

就是把时间标记成：开始、结束、之前、之后等。

事件处理和分析

大多数的事件是动词，大多数的动词是事件，有些名词短语也是事件。大多数助动词不是事件。
以下是基于规则或者基于统计的分类器经常使用的特征项:

词缀字符
正则化的后缀
词性
助动词
句法分析出的种类
词的形态
动词的根（英语）
WordNet上的词义

时间和事件分析结合起来可以知道一条时间线上发生了什么事情。

有关时间分析的语料库有TimeBank（英文）。

模板填充

为每个实体实现一个分类器
实现一个多分类器

有些模板填充系统里的实体类别数是固定的，有些不是的。

高级主题：生物医药学信息提取

It is just an example.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Information Extraction

这是《语音和语言识别》第二十二章的笔记命名实体识别关系探测和分类时间和事件处理模板填充高级主题：生物医药学的信息提取关系探测和分类监督型学习方法可以把这个问题拆分成两个步骤：判断两个候选项之间是否存在关系：使用一个二类分类器给关系打上标签：使用多类分类器如朴素贝叶斯、决策树、最大熵对于特征项的选取：候选项的实体类型实体类型的连接候
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。