文本数据挖掘的定义
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。文本数据挖掘处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系。文本挖掘在很多应用中都扮演重要角色,例如智能商务(例如客户关系管理)、信息检索(例如互联网搜索)等。
文本数据挖掘需要从三个层面进行理解。其一,底层技术,文本挖掘作为数据挖掘的一个分支学科,其底层技术包括机器学习、数理统计、自然语言处理等领域的的技术方法。其二,进阶技术,也即是文本挖掘的基本技术,面向不同的应用,分为五大类:信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理。其三,应用领域,文本挖掘最终的目的如其定义中所描述的,信息访问与知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。
文本数据挖掘的基本技术之文本信息抽取
文本信息抽取
文本信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
技术介绍
下面我们从机器学习的角度介绍一下文本信息抽取这种的文本挖掘技术。我们将文本信息抽取视为一个标注问题,即将其作为一个监督学习的具体应用。文本信息抽取可以分为两个阶段:学习阶段和抽取阶段。其过程如下图所示:
在学习阶段,首先有一些带标注的数据集,每一个样本包含文字单元序列和标注序列组成,如下所示,
表示第i个样本,其中前面x部分表示第i个样本的文字单元序列,后面y部分表示第i个样本的标注序列。机器学子系统基于已有的标注构建一个学习模型,并用一个条件概率分布进行表示。信息抽取系统则是根据得到的条件概率分布模型,对新的样本进行标注,即找到一个标注序列最大化下面这个目标函数: