NLTK(7)从文本提取信息（命名实体识别）

最新推荐文章于 2024-06-01 22:35:29 发布

选西瓜专业户

最新推荐文章于 2024-06-01 22:35:29 发布

阅读量2.5k

点赞数

分类专栏： NLTK 文章标签： NLTK

本文链接：https://blog.csdn.net/todingdong/article/details/102723769

版权

NLTK 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

理论参考 https://blog.csdn.net/kunpen8944/article/details/83149567
https://blog.csdn.net/LuoXianXion/article/details/88823009
其他
https://www.cnblogs.com/AsuraDong/p/7050859.html#树状图
https://www.cnblogs.com/AsuraDong/p/7050859.html#树状图

信息提取（information extraction）

信息抽取（IE）系统

找到并理解文本中的有限的相关性
从很多的文档之中收集信息
产生一个相关信息的结构化的表征

目的：

进行信息的组织使之对人有用
以相对精确的语义形式存放信息方便计算机算法后续的查找
信息抽取（IE）系统一般会抽取清晰的实际的信息（谁对谁做了什么在什么时候）

举例

机构名	位置名
Omnicom	纽约
DDB Needham	纽约
Kaplan Thaler Group	纽约
BBDO South	亚特兰大
Georgia-Pacific	亚特兰大
在亚特兰大运营的公司

问题：“哪些组织在亚特兰大经营？”

机构名
BBDO South
Georgia-Pacific

如果我们尝试从文本中获得相似的信息，事情就比较麻烦了。
文本（1）：
The fourth Wells account moving to another agency is the packaged paper-products division of Georgia-Pacific Corp., which arrived at Wells only last fall. Like Hertz and the History Channel, it is also leaving for an Omnicom-owned agency, the BBDO South unit of BBDO Worldwide. BBDO South in Atlanta, which handles corporate advertising for Georgia-Pacific, will assume additional duties for brands like Angel Soft toilet tissue and Sparkle paper towels, said Ken Haldin, a spokesman for Georgia-Pacific in Atlanta.

如果你通读了全文，你将收集到回答例子问题所需的信息。但我们如何能让一台机器理解文本来返回答案呢？这显然是一个困难得多的任务。

这个问题的解决方法之一是对意义建立一个非常通用的表示。
另一个办法是事先确定我们将只查找文本中非常具体的各种信息，如组织和地点之间的关系。不是试图用文本（1）那样的文字直接回答这个问题，我们首先将自然语言句子的非结构化数据转换成表格这样的结构化数据。然后，利用强大的查询工具，如SQL。这种从文本获取意义的方法被称为信息提取。

应用

信息提取有许多应用，包括商业智能、简历收获、媒体分析、情感检测、专利检索、电子邮件扫描。当前研究的一个特别重要的领域是提取出电子科学文献的结构化数据，特别是在生物学和医学领域。

命名实体识别（named entity recognition）

这是在信息抽取中十分重要的一个分支：找到并识别文档中的名字
主要用途：

命名实体的索引（index）和链接(link off）
分析情感指向的公司或者产品
很多信息抽取的关系都是和命名实体相关
在问题回答（question answer）领域，答案往往是命名实体。

命名实体识别的评估

正确识别一个命名实体，需要包含两个方面，
一方面需要找到表示命名实体的词组，
另一方面对命名实体正确归类，

存在问题

对命名实体识别（NER）或者信息抽取（IE）而言，用之前介绍的recall和precision来进行评估会存在一个问题：没有办法定义边界错误（boundary error）。
举例子而言：
对于句子：First Bank of Chicago announced earnings…而言，机器识别Bank of Chicago作为实体，但实际First Bank of Chicago才是命名实体。对于这样的错误，我们在归类的时候即可以归到FN也可以归到FP。所以，基于这样的度量标准，实际上边界错误比无法识别（只会归类到FN）更严重。
其他度量，比如MUC得分会好一些

信息提取

首先，使用句子分割器将该文档的原始文本分割成句，使用分词器将每个句子进一步细分为词。
接下来，对每个句子进行词性标注，在命名实体识别中将证明这是非常有益的。
下一步，我们寻找每个句子中提到的有潜在价值的实体。
最后，使用关系识别搜索文本中不同实体间的可能关系。
在这里插入图片描述
信息提取系统的简单的流水线结构。该系统以一个文档的原始文本作为其输入，生成(entity, relation, entity)元组的一个列表作为输出。例如，假设一个文档表明Georgia-Pacific公司位于Atlanta，它可能产生元组([ORG: ‘Georgia-Pacific’] ‘in’ [LOC: ‘Atlanta’])。