商务智能大总结4 聚类分析

概述

聚类(clustering):实现将对象自动分组的一种方法
无监督学习
物以类聚

根据簇之间的关系
划分型聚类:属于各个簇的对象之间没有交集
层次型聚类:簇之间具有包含关系
重叠聚类: 簇之间具有重叠关系

根据数据集D与簇之间的关系
完全聚类: C1∪C2∪…∪Ck=D,所有对象都被分配到簇中
部分聚类: C1∪C2∪…∪Ck⊂D
孤立点(outlier):那些未被分到任一个簇中的对象

聚类方法分类
划分法(Partitioning approach):
k均值(k-means)、k中心点(k-medoids)等方法。
层次法(Hierarchical approach):
凝聚层次聚类(agglomerative hierarchical clustering)和分裂层次聚类(divisive hierarchical clustering)
Diana、 Agnes、BIRCH、 ROCK、CAMELEON等。
基于密度的方法(Density-based approach)
DBSCAN、OPTICS和 DenClue等。
基于模型的方法(Model-based)
EM、SOM和COBWEB等

相似度衡量方法

数据类型

定性属性
标称(nominal)属性、序数(ordinal)属性、二值属性(binary)
二值属性:对称属性(symmetric)和非对称属性(asymmeric)
性别是对称属性,医学检查结果为非对称属性
定量属性
区间属性(interval)和比率属性(ratio)
区间属性:加和减操作有意义,可以比较取值的差别,乘除运算没有意义,即两个取值之间的比率关系不成立。摄氏温度
比率属性:既可以加减也可以乘除。绝对温度

基于内容的相似度衡量

基于距离的相似度度量

1、距离度量
明可夫斯基距离Minkowski distance: i = (xi1, xi2, …, xim) 和j = (xj1, xj2, …, xjm)
在这里插入图片描述
明可夫斯基距离又称为Lp范式,p=1时对应曼哈顿距离,又称L1范式;p=2时对应欧式距离,又称L2范式。p=∞时称为切比雪夫距离(Chebyshev distance)

If p = 1, d is 曼哈顿距离Manhattan distance, L1
在这里插入图片描述
If p = 2, d is 欧式距离Euclidean distance: L2
在这里插入图片描述
2、相似度度量
在这里插入图片描述

余弦相似度

在这里插入图片描述
通过两个向量夹角的余弦来衡量,相似度忽略了向量的大小,即各个属性取值的绝对大小,这是与距离不同的。
特点:两个向量中,只要有一个对象在某维度(属性)的取值为0,则该维度相当于被忽略,因为乘积为0。这使得该相似度特别适合于具有大量零值维度的情况。
例如用其度量文档的相似度、用户购买行为。
在这里插入图片描述

基于相关性的相似度度量

在这里插入图片描述

Jaccard系数

在这里插入图片描述

异种属性相似度的综合度量

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于链接的相似度衡量

在这里插入图片描述

k均值方法 (k-means)

在这里插入图片描述

层次聚类方法

层次聚类产生具有层次关系的簇
不需要指定簇的个数k

凝聚层次聚类:采用自底向上策略,首先将每个样本作为单独的一个原子簇,然后合并这些原子簇形成更大的簇,直到所有的样本都在一个簇中(层次的最上层),或者达到一个终止条件。
分裂层次聚类:采用自顶向下策略,首先将所有样本置于一个簇中,然后逐渐细分为越来越小的簇,直到每个样本自成一个簇,或者达到某个终止条件(例如达到了某个希望的簇的数目)。

簇之间的相似度的衡量方法
最小距离(minimum distance),即单链接Single link: 基于来自两个簇中的结点之间的最小距离来衡量两个簇的相似度, 即,
在这里插入图片描述
最大距离(maximum distance),即全链接complete link: 基于来自两个簇中的结点之间的最大距离来衡量两个簇的相似度, 即,
在这里插入图片描述
平均距离(average distance) : 基于来自两个簇中的结点之间的平均距离来衡量两个簇的相似度, 即,
在这里插入图片描述
质心距离(centroid distance) :计算两个簇的质心之间的距离来衡量两个簇的相似度, 即,
在这里插入图片描述

DBSCAN方法

基于密度的聚类方法
在这里插入图片描述
基本概念
在这里插入图片描述
在这里插入图片描述
基本过程
在这里插入图片描述
在这里插入图片描述
对于二维数据集来说,MinPts=4比较合适。
在这里插入图片描述

聚类效果衡量方法

Cohesion(凝聚度):衡量簇内各对象紧密程度
Separation(分离度):衡量簇间各对象的相异程度
silhouette coefficient(轮廓系数): combining cohesion and separation 将凝聚度和分离度相结合的度量方法
轮廓系数越大越好。将所有点的轮廓系数求平均可以用于衡量聚类质量
在这里插入图片描述
请将如下8个点[用(x,y)代表位置]用K-means算法聚为三个簇。
提示:距离采用欧式距离,假设三个簇的初始质心为A1,B1,C1。
8个点为:A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)
请回答:
(1)第一轮执行后三个簇各自包含的点;
(2)第一轮执行后三个簇的质心。

(1)A2到三个中心点的距离分别为: 5,3倍根号二,根号十,3因此A2属于点C1所在簇. 同理可求得:A3,B2,B3,C2属于B1所在簇 因此,第一轮聚类所得到的三个簇为: {A1}, {B1,A3,B2,B3,C2}, {C1,A2} 其新的簇中心为(分别求均值): (2, 10), (6, 6), (1.5, 3.5)
(2) 依次往复,得到最终聚类结果为: {A1,C2,B1}, {A3,B2,B3}, {C1,A2}

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值