【1】文本挖掘的主要概念

转自 NLP论坛 http://www.threedweb.cn/thread-1281-1-1.html

这里写图片描述

什么是文本挖掘

文本挖掘可以广义地定义知识密集的处理过程,其中用户使用一套分析工具与文档集合动态(随着时间的推移)交互。在类似于数据挖掘的方式,文本挖掘旨在通过识别令人感兴趣的模式来提取和搜索数据源中有用信息。在文本挖掘中,数据来源是文档集合,发现令人感兴趣的模式不是来自形式化的数据库记录,而是非结构化的文本数据集合。

文本挖掘众多技术的统一主题就是要“把文本转换成数字”,这样强大的算法可以应用到大型文档数据库。将文本转换成结构化,数字格式,并应用分析算法需要知道如何使用和整合这些技术来处理文本,范围包括文本个体到整个文件的数据库。

文本挖掘的七个主要领域

  • 搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关键字搜索。
  • 文档聚类:对词汇,片段,段落或文件进行分组和归类,使用数据挖掘的聚类方法。
  • 文件分类:对片段,段落或文件进行分组和归类,使用数据挖掘分类方法的基础上,经过训练的标记示例模型。
  • Web挖掘:在互联网上进行数据和文本挖掘,并特别关注在网络的规模和相互联系。
  • 信息抽取(IE):从非结构化文本中识别与提取有关的事实和关系 ; 从非结构化和半结构化文本制作的结构化数据的过程。
  • 自然语言处理(NLP):低层次的语言处理和理解的任务(例如,词性标注); 经常用于同义词库与计算语言学。
  • 概念提取:把单词和短语按语义分组成意义相似的组。

辨别文本挖掘的主要需求

这里写图片描述

  • 问题1:粒度:词汇、句子、片段、段落、篇章…

    此问题是要找到文本挖掘任务所需要的粒度(重点详细程度)。虽然文件和词汇对成功的文本挖掘都是不可或缺的,但是算法几乎总是强调一个而忽略另一个。请注意,在这本书中我们使用术语“文档(document)”来表示文本的单元。这比文档(document)通常使用的定义更广泛。在实践中,这可能是文件,段落,句子,社交媒体的“推特”,或其他文本部分。
    要确定文本挖掘问题的粒度,得先问自己想要的结果:你是要表征或组合词语还是文档?这是文本挖掘算法之中的最大一个部分。

  • 问题2:焦点

    无论你感兴趣的文件还是词语,在图2.2的决策树的下一个问题关于算法的焦点:您是否有兴趣找到特定的单词和文档或者表征整个集合?这两个实践领域被这个问题一分为二–搜索还是信息提取–无论是专注于识别文档数据库中的特定信息,还是试图聚集或分割的空间的解决方案。

  • 问题3:可用信息

    如果你对文档感兴趣,接下来的问题就是在分析时的可用信息。这相当于数据挖掘的监督/无监督的问题。一个监督算法需要一个训练数据的答案(结果标签),你想要的类模型的正面和负面的例子(如区分“感兴趣与不感兴趣”的文章是分析师研究的专业课题)。无监督算法不需要标记的数据,并且它可以被应用到任何数据集而在分析时没有任何可用的信息。监督学习更加强大,也就是说,当足够的示例情况下与目标的结果就是已知的。

  • 问题4:语法或语义

    如果你对词语感兴趣,主要的问题是关于语法和语义。语法是关于“说”什么样的词语,而语义是关于词语是什么“意思”。因为自然语言是如此的流动和复杂,语义是更难的问题。但是,也有文本挖掘算法来解决这两个方面。

  • 问题5:网络或传统文本

    互联网(包括博客,微博和Facebook)的兴起在很大程度上造成了文本挖掘当今持有使得以前无法到达的文本文档提供广大的重视。相比于非Web文档,Web文档的结构和风格提供了独特的机会和挑战。虽然网络和传统文本的许多算法在理论上是相同的,但是网页的规模和其独特的结构特征使人们有理由把它们区分为两个不同的类别。

我们已经把文本挖掘分为七个分支学科,以回答上述的问题:

  • 1) 信息检索和查询
  • 2) 文本聚类
  • 3) 文本分类
  • 4) 网络挖掘
  • 5) 信息抽取
  • 6) 自然语言处理
  • 7) 概念抽取

这里写图片描述

这里写图片描述

这里写图片描述

这七个业务领域重叠很大,因为许多实际的文本挖掘任务处于了多个业务领域的交接部分。

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值