MetaPAD: 从大量文本语料库中发现元模式

最新推荐文章于 2024-03-12 23:22:47 发布

公子小开明

最新推荐文章于 2024-03-12 23:22:47 发布

阅读量1.7k

点赞数 3

分类专栏：数据挖掘文章标签：自然语言处理机器学习大数据数据挖掘深度学习

本文链接：https://blog.csdn.net/qq_34246547/article/details/106842840

版权

MetaPAD是一种元模式挖掘框架，旨在从大量文本语料库中发现具有语义类型的序列模式。它通过上下文感知算法生成元模式，识别同义模式并调整实体类型以提高精度。与传统方法相比，MetaPAD利用类型系统和丰富的上下文信息，能更好地处理文本模式的稀疏性和多样性，从而提高信息提取的准确性和效率。

摘要由CSDN通过智能技术生成

MetaPAD: Meta Pattern Discovery from Massive Text Corpora

背景

本文来自公子开明的博客

传统的文本序列挖掘方法已经公开了大量的序列集合，但是很少有方法能够提取出具有语义类型的任意序列。

Hearst patterns使用诸如“NP such as NP, NP, and NP”挖掘上下为关系;TextRunner和ReVerb对其词汇模式中的类型信息一无所知；NELL[8]学习基于一组固定的预设关系来提取名词短语对，这些关系具有实体类型：如country:president→$Country×$Politician;

一个例外是PATTY提出地SQL模式，依赖于句法分析器，并利用来自知识库或类型系统的类型信息，是在单个句子的解析树上用两个类型实体之间的最短路径自动生成的。但SOL-模式在从大规模文本语料库中挖掘类型文本模式时有三个限制，如下所示。

一个好的文本文本应该是信息丰富的、自身包含上下文信息。PATTY中的依赖分析失去了围绕实体的丰富上下文，例如句子1中“Barack Obama”旁边的“president”和句子2中的“president”和“prime_minister”。此外，SOL 模式仅限于两个实体之间的依赖路径，但不表示诸如$Digit表示“55”和$ Month $; Day$Year之类的数据类型。此外，解析过程代价高昂：它的复杂度是句子长度的三次方，这对于新闻和科学语料库来说代价太高，因为它们都有很长的句子。我们期待一种针对海量语料库的文本挖掘方法。
其次，为了处理模式稀疏性，为了扩展知识库和问答系统，需要对同义文本模式进行识别和分组，并对它们抽取的信息进行聚合。如图1所示，country：president 和person：age两个同义模式组。然而，找到这些同义模式组的过程是非常重要的。应考虑多方面的信息：（1）同义词应共享相同的实体类型或数据类型；（2）即使对于同一实体（如巴拉克奥巴马），也应允许对其进行不同的分组和概括（如<United States, Barack Obama> vs. <Barack Obama, 55>）；（3）共享词（如“president”）或语义相似的上下文词语（如“age”和“-year-old”）可能在同义模式分组中发挥重要作用。PATTY在对同义模式进行分组时不探索多方面的信息，因此不能聚合这样的提取。
第三，文本模式中的实体类型应该是精确的。在不同的模式中，即使同一个实体也可以在不同的类型级别上进行类型化。例如，实体“Barack Obama”应该在由第1-2句生成的模式中以细粒度（Politician）输入，在由第3-4句生成的模式中以粗粒度（Person）输入。然而，PATTY并没有寻找合适的实体类型粒度。

定义（Meta Pattern）:是指实体类型（例如，$ Person，$ Politician，$Country）或数据类型（例如，$Digit，$Month，$Year）、单词（例如，“politician”，“age”）或短语（例如，“prime minister”）的频繁、具有信息性和精确的子序列，可能还有标点符号（例如，“，”，“（”），作为一个整体特定语境中的语义单位。

为什么要挖掘元模式和同义元模式分组？-因为将元模式挖掘和分组为同义组可能有助于信息提取并将非结构化数据转换为结构。例如，我们从一个新闻语料库中得到一句话，“President Blaise Compaore´’s government of Burkina Faso was founded …”，如果我们发现了元模式““president $Politician’s government of $Country”，我们就可以识别并分类一个新的实体（即“Blaise Compaore´”$Politician和““Burkina Faso”作为$Country），以前的研究需要人类在语言规则方面的专业知识或大量的标注数据学习。如果我们将模式与同义模式（如“$Country president $Politician”）组合，我们可以将事实元组<Burkina nafaso, president, Blaise Compaore´>合并到属性类型<country:president>的大量事实集合中.

为了系统地解决元模式挖掘和同义模式分组的难题，我们开发了一个称为MetaPAD（Meta Pattern Discovery）的新框架。我们的MetaPAD没有处理每一个单独的句子，而是利用大量的句子中丰富的模式来表示大量实例的属性或关系。首先，MetaPAD使用高效的顺序模式挖掘生成元模式候选，具有丰富的领域无关上下文特征的用于直观的想法（例如，频率、信息性）学习一个质量评估函数来评估候选模式，然后通过评估引导的上下文感知分割挖掘高质量元模式。其次，MetaPAD将同义元模式的分组过程作为一项学习任务来制定，并通过集成实体类型、数据类型、模式上下文和提取的实例等多个方面的特征来解决这个问题。第三，MetaPAD检查从每个元模式组中提取的实体的类型分布，并寻找模式t最合适的类型级别。这包括自上而下和自下而上的方案，它们遍历类型本体以获得模式的精确性。

元模式挖掘

数据预处理: Harnessing Typing Systems

为了找到文本类型的元模式，我们采用了一种有效的文本挖掘方法，将一个语料库预处理成一个细粒度类型语料库，输入步骤如下，分成3步：

以 U.S. President Barack Obama and Prime Minister Justin Trudeau of Canada met in … 为例子

使用一个短语挖掘方法，将一个句子分解成短语、单词和标点符号，这样就可以找到比PATTY中频繁项集挖掘的频繁n-grams更多的真实短语，如“barack obama”, “prime minister”。
我们使用基于远程监控的方法来联合识别实体及其粗粒度类型（即$Person，$Location和$Organization）。
采用细粒度的实体类型系统来区分2级本体和112种实体类型（如$Polotical，$Country，$Company）；我们进一步使用一组语言规则区分6种数据类型（包括$Digit，$DigitUnit，$DigitRank，$Month，$Day，$Year）。其中，
$DigitUnit: “percent”, “%”, “hundred”, “thousand”, “million”, “billion”, “trillion”…，

$DigitRank: “first”, “1st”, “second”, “2nd”, “44th”…

现在我们有了一个细粒度的、类型化的语料库，它由元模式中定义的相同类型的标记组成：实体类型、数据类型、短语、单词和标点符号。

问题定义

Problem（Meta Pattern Discovery）：给定一个细粒度的、类型化的大量句子的语料库 $C = [. . ., S, . . .]$ ，而且每个句子都被表示为 $S=t_1t_2...t_n$ ，其中 $t_k \in \mathcal T \cup \mathcal P \cup \mathcal M$ ， $t_k$ 是第 k 个token， $\mathcal T$ 是实体类型和数据类型的集合， $\mathcal P$ 是短语和单词的集合。 $\mathcal M$ 是标点符号的集合。任务是找到寻找高质量的同义元模式分组。一个元模式 $m p$ 是来自 $\mathcal T \cup \mathcal P \cup \mathcal M$ 集合的token的子序列。一个同义元模式分组表示为 $\mathcal MPG =[...,mp_i,...,mp_j..]$ ，其中每一对模式，如 $mp_i$

最低0.47元/天解锁文章

公子小开明

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MetaPAD: 从大量文本语料库中发现元模式

MetaPAD: Meta Pattern Discovery from Massive Text Corpora背景传统的文本序列挖掘方法已经公开了大量的序列集合，但是很少有方法能够提取出具有语义类型的任意序列。Hearst patterns使用诸如“NP such as NP, NP, and NP”挖掘上下为关系;TextRunner和ReVerb对其词汇模式中的类型信息一无所知；NELL[8]学习基于一组固定的预设关系来提取名词短语对，这些关系具有实体类型：如country:president
复制链接

扫一扫