数据聚类概述

最新推荐文章于 2024-09-23 11:27:55 发布

刘爱贵

最新推荐文章于 2024-09-23 11:27:55 发布

阅读量3.8k

点赞数

分类专栏：数据挖掘文章标签：算法数据分析数据挖掘数据库生物 web

本文链接：https://blog.csdn.net/liuaigui/article/details/2217686

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

[引言]

我调研数据聚类的目的是想基于聚类对文件访问模式进行预测。许多系统把数据访问请求当作是独立的事件。实际上，数据请求并非完全随机，而是由用户或程序的行为驱动的，存在特定的访问模式。同类用户或多或少具有相同的访问模式，同类文件被同时访问的可能性相对比较大，同一个工作集 (可以看作一个类)内的文件往往在一个事务中都被访问。因此，需要根据有文件历史访问信息，对用户或文件等进行聚类，在此基础上对未来访问作出预测，以减少文件访问延迟，提高系统性能。

[正文]

“物以类聚，人以群分。”人类认识世界往往从将被认识的对象进行分类而开始的，因此，聚类是一项最基本的认识活动。通过适当聚类，事物才便与研究，事物的内部规律才可能为人类所掌握。聚类，就是按照事物的某些属性，把事物聚集成类，使类间相似性尽量小，类内相似性尽量大，按照相似程度的大小，将事物(样本、对象或变量)逐一归类。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法，在多元数据分析中占有重要地位。从机器学习的角度看，聚类是无监督的学习过程，而分类是有监督的学习过程，区别在于分类需要事先知道分类所依据的属性值，而聚类由算法自动找到这个分类属性值。从实际应用的角度看，聚类在经济学、生物学、气象学、医药学、信息工程和工程技术领域都有重要应用。在数据挖掘中，如科学数据探测、信息检索、文本挖掘、空间数据库分析、WEB数据分析、客户关系管理等方面起着重要作用。

聚类要把事物的属性抽象出来，分数值属性(定量的)和符号属性(定性的)，遇到符号属性问题时要转化为数值后处理。聚类分析的基本思想：在样本之间定义相似系数或距离，以代表样本之间的相似程度，按照相似程度的大小，将样本逐一分类。每个对象由一组指标来刻划，指标数据要可通过直接观测或采用历史统计资料。常见的传统聚类算法有：模糊聚类算法，K均值聚类算法、层次聚类算法、竞争聚类算法等。聚类分析的过程主要分下面几个步骤：

(1) 定义样本指标，并获取相关统计数据
    指标的选择很关键，要能恰当刻画事物的相似性，可以是单个或多个指标。如WEB聚类中，可以使用页面访问频率、访问时间、访问路径等作为指标。指标数据主要来自历史统计数据，也可以直接预测得到。


(2) 指标的标准化处理
    为了便于对指标数据进行分析比较，同时避免数据对指标的作用被埋没，需要把各指标数据标准化，即正规化。标准化的方法很多，可以根据实际情况选择使用。

(3) 构造相似关系矩阵，根据需要进行适当改造
    对两两样本之间使用相似系数计算方法，在统计指标上计算相似性，构造[n x n]的相似矩阵。计算相似系数的方法主要有数量积法、相关系数法、指数相关系数法、最大值最小值法、算术平均最小值法、几何平均最小值法、绝对值指数法、夹角余弦法、平均差距法、专家打分法、距离法等，根据实际问题选择使用。有些聚类算法对相似矩阵的些特殊要求，如自反性、对称性、传递性，这就需要对相似矩阵进行适当改造。

(4) 使用相应方法进行聚类，并检验效果
    不同算法的主要区别就在于此，聚类的效果、性能、算法复杂度都会有差异。各种算法都有自己的适用领域，根据应用来选择合适的算法。还要对聚类的结果进行分析和检验，以证明算法的优劣。

[文献]

如果对数据聚类感兴趣，想进一步学习，可以参考论文《Survey of Clustering Algorithms》Rui Xu, Student Member, IEEE and Donald Wunsch II, Fellow, IEEE。这篇文章是聚类算法的综述，几乎涵盖了各个领域的聚类算法，从各种方向上来谈论聚类算法(层次，划分，大数据集，图形，文本聚类，模糊聚类等)，以及聚类的相关问题(如何计算距离, 如何确定聚类个数,如何对聚类结果进行评价等)。