随着计算机信息技术和网络技术的发展,使今天的Web成为信息发布、交互和获取的主要工具。万维网是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务,丰富的Web资源中蕴含了大量具有巨大的潜在价值,人们需要能够从Web上快速、有效地发现知识和模式的工具。此时数据挖掘技术为解决这个问题提供了一种解决方案,而这些海量的数据源恰恰为数据挖掘提供了基本的支持。但是Web上的信息都是异质的,半结构化的,Web页面的复杂性高于任何传统的文本文档,它缺乏统一的结构,风格各异,而且这些海量文档也没有索引化,查找起来相当困难。面对各种困难,传统的数据挖掘技术显然难以胜任…
l 聚类
数据库中的记录可被化分为一系列有意义的子集,即聚类。我们可以发现,使用如google,baidu,和yahoo之类的搜索引擎搜索出来的结果往往是掺杂着对同一个关键词的不同类别的,比如说当你输入jordan就会出来如打篮球的麦克.乔丹,乔丹篮球鞋,约旦国和艳星乔丹等等。对于一个检索的用户来说,他们的目的是明确的,也就是说事实上搜索引擎返回的有些信息是他们不需要的。在这样的需求的驱动下,一个很自然的概念在我们的脑中形成:那就是对搜索返回的结果的自动分类!事实上,对前面的概念描叙所用的词"分类"是不精确的,在信息检索中"分类"和"聚类"是两个不同的概念。对于"分类"来说,我们对某件事物在现实生活中有几个类别已经有了明确的定义,也就是我们所说的"模型",而分类的意义在于将某个未知事物归并到某一个类别中。而对于"聚类"来说,我们对现实世界中的某件事物还没有明确的认识,或者建立对其的认识需要很大的代价,在这样的情况下,我们就需要计算机根据一些算法识别这些事物中的特点,设置事物之间的分界线,也就是我们所说的"类"。从上我们可以得出"分类"是一个使用模型的过程,而"聚类"则是一个建立模型的过程。
l 自动分类
方法大致可以分为两种:
一是基于规则的方法,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结论,而不仅仅是简单搜索现成的答案。由于需要由知识工程师手工编制大量的推理规则,因此其开发费用是相当昂贵的。
二是基于数据的机器学习方法,研究从观测样本出发,寻找规律(即利用一些做好标识的训练数据自动地构造分类器),利用这些对未来样本进行预测。现有机器学习的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于大数定律的结论。由于基于相对简单的机制,以及实际环境中所表现出来的良好性能,而为大部分文本自动分类系统所采用。
另外,按照有无训练集,自动分类方法还可以分为归类和聚类:在文本分类过程中,文本的类别可以是预先给定的,也可以是不确定的。前者对应自动分类中的自动归类,后者对应自动分类中的自动聚类。自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征(或一定的分类标准、分类参数)进行比较,然后将对象化归为特征最接近的一类(或最符合标准参数的一类),并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就蜕化成了归类的问题。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则或需要(如类别数目的规定,或同类对象的相似或接近程度),将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。