1. 综述
1.1 文本挖掘简介
文本挖掘已经成为数据挖掘中一个日益流行而重要的研究领域。与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,文本挖掘所研究的文本数据库, 由来自各种数据源的大量文档组成。这些文档可能包含标题、作者、出版日期、长度等结构化数据, 也可能包含摘要和内容等非结构化的文本成分,而且这些文档的内容是人类所使用的自然语言,计算机很难处理其语义。因此传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,进而人们提出文本挖掘的方法进行不同的文档比较以及文档重要性和相关性排列,又或者找出多文档的模式或趋势等分析。
1.2 文章结构
本文重点讨论了一种,只需要从用户中得到一些训练的例子,就可以从文档集合中提取结构化数据的技术。这些例子通常被用来提取模式,接着可以使新的元组从文档集合中被提取出来。基于此技术的雪球系统(Snowball)推出了从纯文本文件中生成模式和提取元组的新策略。在每一次迭代的提取过程中,雪球可以在没有人为干预的情况下对这些模式和元组的质量进行评价,并为下一次迭代保留最可靠的部分。
在此之前,我们会对雪球系统的研究基础DIPRE算法进行深入的剖析;同样,作为一种经典的文本挖掘系统,雪球系统同样是众多更为先进的文本挖掘系统的原型,在此,我们将简单介绍一种名为StatSnowball的改进型系统。
最后,本文将结合作者个人一周以来的所学所思,对文本挖掘领域的现状以及技术发展趋势进行简要的分析与概括。
2. 研究基础:DIPRE算法
2.1 算法综述
DIPRE算法为后来关系挖掘领域的相关研究奠定了基础。后续众多基于种子的算法研究以这篇论文为基础,进行了扩展和完善。[1]的主要探索的目标是从信息量大且信息极其分散的万维网中抽取出具有一定关系且数量可观的元组对。
针对这一点,作者提出了关系抽取算法——DIPRE。在描述这个算法之前,作者首先讨论了模型与关系两者间的双重对应特点。简而言之,就是如果两个实体(即一对元组)间存在一定关系,那么在数据量庞大的万维网数据库中,这两个实体出现时一般情况下会存在若干个模型与之相对应。而对于两个总是以若干一定模型出现的实体来说,它们之间很可能存在着某种关系。基于这个思想,作者引入了利用关系与模型的这