MetaPAD: 从大量文本语料库中发现元模式

MetaPAD: Meta Pattern Discovery from Massive Text Corpora

背景

本文来自公子开明的博客

传统的文本序列挖掘方法已经公开了大量的序列集合,但是很少有方法能够提取出具有语义类型的任意序列。

Hearst patterns使用诸如“NP such as NP, NP, and NP”挖掘上下为关系;TextRunnerReVerb对其词汇模式中的类型信息一无所知;NELL[8]学习基于一组固定的预设关系来提取名词短语对,这些关系具有实体类型:如country:president→$Country×​$Politician;

一个例外是PATTY提出地SQL模式,依赖于句法分析器,并利用来自知识库或类型系统的类型信息,是在单个句子的解析树上用两个类型实体之间的最短路径自动生成的。但SOL-模式在从大规模文本语料库中挖掘类型文本模式时有三个限制,如下所示。

  1. 一个好的文本文本应该是信息丰富的、自身包含上下文信息。PATTY中的依赖分析失去了围绕实体的丰富上下文,例如句子1中“Barack Obama”旁边的“president”和句子2中的“president”和“prime_minister”。此外,SOL 模式仅限于两个实体之间的依赖路径,但不表示诸如$Digit表示“55”和$ Month​ $; Day​$Year之类的数据类型。此外,解析过程代价高昂:它的复杂度是句子长度的三次方,这对于新闻和科学语料库来说代价太高,因为它们都有很长的句子。我们期待一种针对海量语料库的文本挖掘方法。
  2. 其次,为了处理模式稀疏性,为了扩展知识库和问答系统,需要对同义文本模式进行识别和分组,并对它们抽取的信息进行聚合。如图1所示,country:president 和person:age两个同义模式组。然而,找到这些同义模式组的过程是非常重要的。应考虑多方面的信息:(1)同义词应共享相同的实体类型或数据类型;(2)即使对于同一实体(如巴拉克奥巴马),也应允许对其进行不同的分组和概括(如<United States, Barack Obama> vs. <Barack Obama, 55>);(3)共享词(如“president”)或语义相似的上下文词语(如“age”和“-year-old”)可能在同义模式分组中发挥重要作用。PATTY在对同义模式进行分组时不探索多方面的信息,因此不能聚合这样的提取。
  3. 第三,文本模式中的实体类型应该是精确的。在不同的模式中,即使同一个实体也可以在不同的类型级别上进行类型化。例如,实体“Barack Obama”应该在由第1-2句生成的模式中以细粒度(Politician)输入,在由第3-4句生成的模式中以粗粒度(Person)输入。然而,PATTY并没有寻找合适的实体类型粒度。

定义(Meta Pattern):是指实体类型(例如,$ Person,$ Politician,$Country)或数据类型(例如,$Digit,$Month,$Year)、单词(例如,“politician”,“age”)或短语(例如,“prime minister”)的频繁、具有信息性和精确的子序列,可能还有标点符号(例如,“,”,“(”),作为一个整体特定语境中的语义单位。

为什么要挖掘元模式和同义元模式分组?-因为将元模式挖掘和分组为同义组可能有助于信息提取并将非结构化数据转换为结构。例如,我们从一个新闻语料库中得到一句话,“President Blaise Compaore´’s government of Burkina Faso was founded …”,如果我们发现了元模式““president $Politician’s government of $Country”,我们就可以识别并分类一个新的实体(即“Blaise Compaore´”$Politician和““Burkina Faso”作为$Country),以前的研究需要人类在语言规则方面的专业知识或大量的标注数据学习。如果我们将模式与同义模式(如“$Country president $Politician”)组合,我们可以将事实元组<Burkina nafaso, president, Blaise Compaore´>合并到属性类型<country:president>的大量事实集合中.

为了系统地解决元模式挖掘和同义模式分组的难题,我们开发了一个称为MetaPAD(Meta Pattern Discovery)的新框架。我们的MetaPAD没有处理每一个单独的句子,而是利用大量的句子中丰富的模式来表示大量实例的属性或关系。首先,MetaPAD使用高效的顺序模式挖掘生成元模式候选,具有丰富的领域无关上下文特征的用于直观的想法(例如,频率、信息性)学习一个质量评估函数来评估候选模式,然后通过评估引导的上下文感知分割挖掘高质量元模式。其次,MetaPAD将同义元模式的分组过程作为一项学习任务来制定,并通过集成实体类型、数据类型、模式上下文和提取的实例等多个方面的特征来解决这个问题。第三,MetaPAD检查从每个元模式组中提取的实体的类型分布,并寻找模式t最合适的类型级别。这包括自上而下和自下而上的方案,它们遍历类型本体以获得模式的精确性。

相关工作

开放域信息抽取工具

TextRunner:开放域信息抽取工具,提取文本语料库中实体之间的字符串,并对这些字符串进行聚类和简化以生成关系提及。

ReVerb:开放域信息抽取工具,自动识别和提取英语句子中的二元关系,限制以介词结尾的动词或动词短语的模式。

不足:这些规则或者模式是没有实体信息的字符串/短语。

属性抽取工具

Biperpedia:谷歌,从用户的查询(“president of united states” and “barack oabma’s wife”)中将实体替换为E,名词性属性替换为A产生E-A pattern,如A of E,E’s A;

ReNoun:从预先定义的属性名称子集上的标注语料库(例如,“Barack Obama’s wife is Michelle Obama” and “Larry Page, CEO of Google”)通过将实体/主题替换为“S”,将属性名称替换为“A”,将值/对象替换为“O”,生成S-A-O模式(例如,“S’s A is O”和“O,A of S”)。

不足:但是,查询日志和注释通常不可用或代价高昂。此外,查询日志字的分布与普通的书面语言相比,具有很强的约束性。因此,大多数S-A-O模式,如“S-A-O”和“S-A-O”,在应用于文本语料库时会产生噪声。

其他信息抽取工具

NELL:永动学习机,利用一个初始的本体和二元关系,和一些标记和大量Web网页抽取模版;其中一个步骤就是学习规则来标注新的实例。

OntExt:一次对给定实体类型的名词短语对进行频繁的共现聚类,但不能扩展到挖掘大型语料库。

PATTY:第一个利用类型系统挖掘实体类型的关系模式的。

元模式挖掘

数据预处理: Harnessing Typing Systems

为了找到文本类型的元模式,我们采用了一种有效的文本挖掘方法,将一个语料库预处理成一个细粒度类型语料库,输入步骤如下,分成3步:

以 U.S. President Barack Obama and Prime Minister Justin Trudeau of Canada met in … 为例子

  1. 使用一个短语挖掘方法,将一个句子分解成短语、单词和标点符号,这样就可以找到比PATTY中频繁项集挖掘的频繁n-grams更多的真实短语,如“barack obama”, “prime minister”。

  2. 我们使用基于远程监控的方法来联合识别实体及其粗粒度类型(即$Person,$Location和$Organization)。

  3. 采用细粒度的实体类型系统来区分2级本体和112种实体类型(如$Polotical,$Country,$Company);我们进一步使用一组语言规则区分6种数据类型(包括$Digit,$DigitUnit,$DigitRank,$Month,$Day,$Year)。其中,
    $DigitUnit: “percent”, “%”, “hundred”, “thousand”, “million”, “billion”, “trillion”…,

    $DigitRank: “first”, “1st”, “second”, “2nd”, “44th”…

    现在我们有了一个细粒度的、类型化的语料库,它由元模式中定义的相同类型的标记组成:实体类型、数据类型、短语、单词和标点符号。

问题定义

Problem(Meta Pattern Discovery):给定一个细粒度的、类型化的大量句子的语料库 C = [ . . . , S , . . . ] C=[...,S,...] C=[...,S,...],而且每个句子都被表示为 S = t 1 t 2 . . . t n S=t_1t_2...t_n S=t1t2...tn ,其中 t k ∈ T ∪ P ∪ M t_k \in \mathcal T \cup \mathcal P \cup \mathcal M tkTPM t k t_k tk 是第 k 个token, T \mathcal T T是实体类型和数据类型的集合, P \mathcal P P是短语和单词的集合。 M \mathcal M M是标点符号的集合。任务是找到寻找高质量的同义元模式分组。一个元模式 m p mp mp是来自 T ∪ P ∪ M \mathcal T \cup \mathcal P \cup \mathcal M TPM集合的token的子序列。一个同义元模式分组表示为 M P G = [ . . . , m p i , . . . , m p j . . ] \mathcal MPG =[...,mp_i,...,mp_j..] MPG=[...,mpi,...,mpj..],其中每一对模式,如 m p i mp_i mpi

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值