文本数据挖掘(Text Data Mining)

文本数据挖掘(Text Data Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。文本数据挖掘是应用驱动的,在商务智能(Business Intelligence)、信息检索(Information Retrieval)、生物信息处理等方面都有应用。


按照挖掘对象的不同,可以将TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。

 

  • 基于单文档的数据挖掘对文档的分析不涉及其他文档,主要挖掘技术有文本摘要和信息提取。
  • 基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,主要技术有文本分类、文本聚集、个性化文本过滤、因素分析等。

TDM可分为3层:

 

  1. 底层是TDM基础领域层,包括机器学习、数理统计和自然语言处理。
  2. 中间是TDM基础技术层,包括文本信息抽取、文本分类、文本聚集、文本数据压缩和文本数据处理,其中文本信息抽取和文本数据压缩是TMD独有的技术。
  3. 最上层是应用领域层,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。

 

Web文本数据挖掘是Web内容挖掘的最主要、最重要的部分,比数据挖掘具有更高的商业潜力。Web文本数据挖掘是对web上大量文档集合的内容进行总结、分类、聚集和关联分析,以及利用wen文档进行趋势预测等。

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值