本文解决的问题是短语抽取。
亮点在于:
1、利用已有的知识库(如Wikipedia)做远程监督训练;
2、利用词性信息来增加抽取的准确性。
0. 摘要
(1)背景介绍:什么是数据挖掘?数据挖掘的重要性
(2)现有的研究短语挖掘的方法:需要人工标注,依赖于语言分析器
(3)现有方法的缺点:代价昂贵,用于新领域的效果不好
(4)本文提出新的框架:自动短语挖掘框架AutoPhrase,利用大量的高质量短语,性能提高
(5)本文还提出了POS-Guided短语分割:提高了词性标记的性能
(5)结果:AutoPhrase可以支持任何语言,只要该语言中有通用知识库。与当下最先进的方法比较,新方法在跨不同领域和语言的5个实际数据集上的有效性有了显著提高。
1. Introduction
(1)介绍了什么是短语挖掘,及其重要用途
短语挖掘是指在给定语料库(如研究论文和新闻)中自动提取高质量短语(如科学术语和一般实体名称)的过程。
它可以改进应用进程的计算模式
(2)目前短语挖掘方法的进展
目前的方法特点:
- 需要有一定水平的专家标记
- 依赖复杂的、训练有素的语言分析器
缺点:
- 代价昂贵
- 应用到新的领域效果不好
目前能够领域独立的方法SegPhrase方法,仍然需要人工标注。
(3)本文提出新的自动短语挖掘框架AutoPhrase
理想的自动短语挖掘方法,应该满足于:
- 独立于领域
- 只需要很少的人力或语言分析
本文提出自动短语挖掘框架AutoPhrase,超越了分段短语,进一步摆脱了额外的手工标注工作,提高了性能。主要使用以下两种新技术:
- Robust Positive-Only Distant Training(强健正面的远程训练)
即:利用已有的知识库(Wikipedia)做远程监督训练
公共知识库(如维基百科)中的高质量短语,免费并且数量很多。在远程训练中,使用一般知识库中高质量短语,可以避免手工标注。
具体做法是:
- 从一般知识库中构建积极标签的样本
- 从给定的领域语料库中构建消极标签的样本
- 训练大量的基本分类器
- 将这些分类器的预测聚合在一起
- POS-Guided Phrasal Segmentation. (POS-Guided短语分割)
即:利用词性信息来增加抽取的准确性
语言处理器应该权衡:性能 和 领域独立能力
- 对于领域独立能力,如果没有语言领域知识,准确性会受限制
- 对于准确性,依赖复杂的、训练有素的语言分析器,就会降低领域独立能力
解决办法: 在文档集合的语言中加入一个预先训练的词性标记,以进一步提高性能
(4)本文的主要贡献
- 我们研究了一个重要的问题,自动短语挖掘,并分析了它的主要挑战。
- 我们提出了一种鲁棒的、仅为正的远程短语质量估计训练方法,以最小化人工的工作量。
- 我们开发了一个新的短语分割模型,当有一个pos标签时,利用pos标签来进一步改进
- 通过对不同doma中5个真实数据集的实验结果,我们展示了我们的方法的鲁棒性和准确性,并展示了与之前的方法相比的改进
2. Related Work
本文的工作与现有的工作进行比较
3. Preliminaries
本节介绍了基本概念,包括短语的四个要求。
对于自动短语挖掘任务,
- 输入:语料库(特定语言和特定领域的文本单词序列,长度任意)和知识库
- 输出:一个按质量递减排列的短语列表
短语质量 定义为一个单词序列成为一个完整语义单元的概率,满足以下条件:
- 流行度: 在给定的文档集合中,质量短语应该出现的频率足够高。
- 一致性: 由于偶然因素,令牌在高质量短语中的搭配出现的概率明显高于预期。
- 信息性: 如果一个短语表达了一个特定的主题或概念,那么这个短语就是信息性的。
- 完备性: 长频繁短语及其子序列均满足上述3个条件。当一个短语可以在特定的文档上下文中解释为一个完整的语义单元时,它就被认为是完整的
AutoPhrase会根据正池和负池对短语质量进行两次评估,一次在短语分割前,一次在短语分割后。也就是说,POS-Guided短语分割需要一组初始的短语质量分数;我们预先根据原始频率估计分数;然后,一旦特征值被纠正,我们重新估计分数。
只有满足上述要求的短语才被认为是高质量的短语
4 Methodology
本节介绍了上面讨论的两个方法细节。
4.1 Robust Positive-Only Distant Training
介绍了一种仅利用现有的一般知识库而不需要任何人工努力的方法。
4.1.1 标签池
- 把维基百科上高质量的短语放在积极池中。
- 基于n-gram的候选短语数量非常多,其中大多数实际上质量较差。因此,从给定语料库派生而来的短语候选词,如果不能匹配从给定知识库派生的任何高质量短语,就会被用来填充一个大而嘈杂的负池。
4.1.2 去燥
问题: 从给定语料库中可能漏掉了一些高质量的短语,即仅仅是因为它们不存在于知识库中。
解决方案:使用一个集成分类器来平均T独立训练的基分类器的结果
如图所示,对于每个基分类器,我们分别从正池和负池中随机抽取K个短语候选项,并进行替换(考虑到一个规范的平衡分类场景)。所有短语候选人的全套中的这个2 K大小的子集称为扰动训练集。因为一些的标签(图中δ)短语从正到负的质量。为了使集成分类器能够减轻这种噪声的影响,我们需要使用训练误差最小的基分类器,我们生长了一个未经修剪的决策树,以分离所有短语来满足这个需求。事实上,当扰动训练集中没有两个正、负短语具有相同的特征值时,该决策树的训练精度始终达到100%。
4.2 POS-Guided短语切分
5 Experiments
在本节中,我们将使用所提议的方法从三个领域(科学论文、商业评论和维基百科文章)和三种语言(英语、西班牙语和汉语)的五个大型文本语料库中挖掘高质量的短语。通过与其他方法的比较,证明了该方法的有效性。然后,我们探讨了该方法的鲁棒性及其在专家标记下的性能。此外,还将证明在短语分割中加入POS标签的优点。最后,我们提出了案例研究