数据聚类概述

[引言]

我调研数据聚类的目的是想基于聚类对文件访问模式进行预测。许多系统把数据访问请求当作是独立的事件。实际上,数据请求并非完全随机,而是由用户或程序的行为驱动的,存在特定的访问模式。同类用户或多或少具有相同的访问模式,同类文件被同时访问的可能性相对比较大,同一个工作集 (可以看作一个类)内的文件往往在一个事务中都被访问。因此,需要根据有文件历史访问信息,对用户或文件等进行聚类,在此基础上对未来访问作出预测,以减少文件访问延迟,提高系统性能。


[正文]

“物以类聚,人以群分。”人类认识世界往往从将被认识的对象进行分类而开始的,因此,聚类是一项最基本的认识活动。通过适当聚类,事物才便与研究,事物的内部规律才可能为人类所掌握。聚类,就是按照事物的某些属性,把事物聚集成类,使类间相似性尽量小,类内相似性尽量大,按照相似程度的大小,将事物(样本、对象或变量)逐一归类。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法,在多元数据分析中占有重要地位。从机器学习的角度看,聚类是无监督的学习过程,而分类是有监督的学习过程,区别在于分类需要事先知道分类所依据的属性值,而聚类由算法自动找到这个分类属性值。从实际应用的角度看,聚类在经济学、生物学、气象学、医药学、信息工程和工程技术领域都有重要应用。在数据挖掘中,如科学数据探测、信息检索、文本挖掘、空间数据库分析、WEB数据分析、客户关系管理等方面起着重要作用。

聚类要把事物的属性抽象出来,分数值属性(定量的)和符号属性(定性的),遇到符号属性问题时要转化为数值后处理。聚类分析的基本思想:在样本之间定义相似系数或距离,以代表样本之间的相似程度,按照相似程度的大小,将样本逐一分类。每个对象由一组指标来刻划,指标数据要可通过直接观测或采用历史统计资料。常见的传统聚类算法有:模糊聚类算法,K均值聚类算法、层次聚类算法、竞争聚类算法等。聚类分析的过程主要分下面几个步骤:

(1) 定义样本指标,并获取相关统计数据
    指标的选择很关键,要能恰当刻画事物的相似性,可以是单个或多个指标。如WEB聚类中,可以使用页面访问频率、访问时间、访问路径等作为指标。指标数据主要来自历史统计数据,也可以直接预测得到。
    

(2) 指标的标准化处理
    为了便于对指标数据进行分析比较,同时避免数据对指标的作用被埋没,需要把各指标数据标准化,即正规化。标准化的方法很多,可以根据实际情况选择使用。

(3) 构造相似关系矩阵,根据需要进行适当改造
    对两两样本之间使用相似系数计算方法,在统计指标上计算相似性,构造[n x n]的相似矩阵。计算相似系数的方法主要有数量积法、相关系数法、指数相关系数法、最大值最小值法、算术平均最小值法、几何平均最小值法、绝对值指数法、夹角余弦法、平均差距法、专家打分法、距离法等,根据实际问题选择使用。有些聚类算法对相似矩阵的些特殊要求,如自反性、对称性、传递性,这就需要对相似矩阵进行适当改造。

(4) 使用相应方法进行聚类,并检验效果
    不同算法的主要区别就在于此,聚类的效果、性能、算法复杂度都会有差异。各种算法都有自己的适用领域,根据应用来选择合适的算法。还要对聚类的结果进行分析和检验,以证明算法的优劣。


[文献]

如果对数据聚类感兴趣, 想进一步学习,可以参考论文《Survey of Clustering Algorithms》Rui Xu, Student Member, IEEE and Donald Wunsch II, Fellow, IEEE。这篇文章是聚类算法的综述,几乎涵盖了各个领域的聚类算法,从各种方向上来谈论聚类算法(层次,划分,大数据集,图形,文本聚类,模糊聚类等),以及聚类的相关问题(如何计算距离, 如何确定聚类个数,如何对聚类结果进行评价等)。 

(刘爱贵 / Aiguille.Liu)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值