文本挖掘过程（Text Mining）

最新推荐文章于 2017-08-29 20:07:41 发布

weixin_33860147

最新推荐文章于 2017-08-29 20:07:41 发布

阅读量2.2k

点赞数

文章标签：人工智能数据库

原文链接：http://www.cnblogs.com/woodcutter/archive/2010/10/10/1847495.html

版权

本文介绍了文本挖掘的过程，包括文本预处理、文本挖掘和模式评估，以及关键技术如文本分类。此外，还概述了文本挖掘在搜索引擎、信息分类、信息抽取和自动问答等领域的应用。

摘要由CSDN通过智能技术生成

一、文本挖掘概念

在现实世界中，可获取的大部信息是以文本形式存储在文本数据库中的，由来自各种数据源的大量文档组成，如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨，文本挖掘已经成为信息领域的研究热点。

文本数据库中存储的数据可能是高度非结构化的，如WWW上的网页;也可能是半结构化的，如e-mail消息和一些XML网页:而其它的则可能是良结构化的。良结构化文本数据的典型代表是图书馆数据库中的文档，这些文档可能包含结构字段，如标题、作者、出版日期、长度、分类等等，也可能包含大量非结构化文本成分，如摘要和内容。通常，具有较好结构的文本数据库可以使用关系数据库系统实现，而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。

文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。

文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识，但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。文本挖掘是从数据挖掘发展而来，因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比，文本挖掘有其独特之处，主要表现在:文档本身是半结构化或非结构化的，无确定形式并且缺乏机

最低0.47元/天解锁文章

weixin_33860147

关注

0
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
文本挖掘过程（Text Mining）

一、文本挖掘概念在现实世界中，可获取的大部信息是以文本形式存储在文本数据库中的，由来自各种数据源的大量文档组成，如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨，文本挖掘已经成为信息领域的研究热点。文本数据库中存储的数据可能是高度非结构化的，如WWW上的网页;也可能是半结构化的，如e-mail消息和一些XML网页:而其它的则可能是良结构化...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。