聚类分析

聚类分析:是依据数据相似度或相相异度而将数据分群归属到数个聚类的方法;使得同一群内的数据或个体相似程度大,而各群之间相似程度小。
分类分析:是根据已知或所给定目标数据的类别,找出其分类属性,建立分类规则或模式,将数据分类至对应的目标类别。其大部分算法为监督学习。
聚类分析是分群找出各个自聚类数据背后可能隐藏的特性、样型或关联现象。聚类分析实现并不知道聚类书目,而分群结果的特征及其代表的意义仅能事后加以解释。因此,聚类分析可视为无监督学习。
聚类分析的阶段;
(1). 数据准备与分群特征选取
(2). 相似度计算
(3). 分群算法
(4). 分群结果评估与解释
相似度分析:衡量相似度方法如下
(1). 距离(欧氏距离,曼哈顿距离,闵式距离,加权距离,标准化距离,马氏距离)
(2). 相关系数(皮尔逊相关系数,等级相关系数)
(3). 二元关系系数
聚类分析方法:
(1). 层次聚类分析
(2). 划分聚类分析
(3). 以密度为基础的方法
(4). 以模式为基础的方法

层次聚类分析
层次聚类分析是对数据对进行层次划分的聚类,而用属性图表示各聚类中所包括的数据点,树形图的根节点仅包含单一聚类,代表所有数据点均落在同一聚类中,而树形图中的叶节点皆各自为单一聚类,代表各数据点均独立聚类。
层次聚类分群方式可以分为凝聚和分裂两种。
层次聚类算法是以龙聚类间的相近程度为基础,根据不同距离的选用,表示两聚类的相似度。
方法:
(1). 单一连接法
(2). 完全连接法
(3). 平均连接法
(4). 中心点连接法
(5). Ward 法

划分聚类分析
划分聚类分析法:划分聚类分析是先选择数个不同的起始聚类中心点,每一个数据点只会被分到一个聚类,首先所有样本数据均计算与每个中心点的距离或相似度,而每个样本会根据具有最小距离或相似度的结果将其划分至该聚类,往往以平方误差为衡量划分结果,具有最小平方误差的划分即为最终的分群。
划分聚类的方法:
(1). K均值法
(2). K中心点法

以密度为基础的分群算法
基于密度为基础的方法:
适用于数据点的分布为任意形状的情况。可以处理不同大小,形状聚类的方法。
其算法主要为DBSCAN算法。

以模式为基础的分群算法
以模式为基础的方法:
以模式为基础的方法是将数据根据模型予以适配而产生聚类。
其算法有:
(1). 期望最大化算法
(2). 自组织映射网络

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值