聚类分析数据集_毕业季:什么是聚类分析?(毕业论文)

毕业季:什么是聚类分析?(毕业论文)

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。

聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。

各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。

各指标之间具有一定的相关关系。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。

变量类型:定类变量、定量(离散和连续)变量

聚类方法

1,层次聚类(Hierarchical Clustering)

合并法、分解法、树状图

2. 非层次聚类

划分聚类、谱聚类

聚类方法特征:

·

聚类分析简单、直观。

·

·

聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;

·

·

不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;

·

·

聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。

·

·

研究者在使用聚类分析时应特别注意可能影响结果的各个因素。

·

·

异常值和特殊的变量对聚类有较大影响
  当分类变量的测量尺度不一致时,需要事先做标准化处理。

·

当然,聚类分析不能做的事情是:
  自动发现和告诉你应该分成多少个类——属于非监督类分析方法

期望能很清楚的找到大致相等的类或细分市场是不现实的;

样本聚类,变量之间的关系需要研究者决定;

不会自动给出一个最佳聚类结果;

我这里提到的聚类分析主要是谱系聚类(hierarchical clustering)和快速聚类(K-means)、两阶段聚类(Two-Step);

根据聚类变量得到的描述两个个体间(或变量间)的对应程度或联系紧密程度的度量。
  可以用两种方式来测量:
1、采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性。

2、采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。

特点:

处理对象:分类变量和连续变量

自动决定最佳分类数

快速处理大数据集

前提假设:

变量间彼此独立

分类变量服从多项分布,连续变量服从正态分布

模型稳健

算法原理

第一步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类

第二步,对第一步中各类依据类间距离进行合并,按一定的标准,停止合并

判别分析 Discriminant Analysis

介绍: 判别分析

分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。

判别分析DA

概述

DA模型

DA有关的统计量

两组DA

案例分析

判别分析

判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。

判别分析

不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。

DA适用于定类变量(因)、任意变量(自)

两类:一个判别函数;

多组:一个以上判别函数

DA目的

建立判别函数

检查不同组之间在有关预测变量方面是否有显著差异

决定哪个预测变量对组间差异的贡献最大

根据预测变量对个体进行分类

分析模型

要先建立判别函数 Y=a1x1+a2x2+...anxn,其中:Y为判别分数(判别值),x1 x2...xn为反映研究对象特征的变量,a1 a2...an为系数

主要应用

商业

聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。

聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。

生物

聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识

地理

聚类能够帮助在地球中被观察的数据库商趋于的相似性

保险行业

聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组

因特网

聚类分析被用来在网上进行文档归类来修复信息

电子商务

聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值