系统聚类分析——类平均法(python)

 

 系统聚类法的基本思想:
一开始将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离并类。这样每次缩小一类,直到所有的样品都成一类为止。这个并类过程可以用谱系聚类图表达出来。

类平均法:  类平均法把类与类之间的距离定义为两类样品两两之间的平均平方距离。设某一步将Gp类和Gq类合并成Gr类,他们的样品个数分别为gif.latex?n_p%2Cn_q%2Cn_r%28n_r%3Dn_p+n_r%29,则Gr与其他类Gk的类间距离的递推公式为:

gif.latex?D%5E2_%7Brk%7D%3D%5Cfrac%7B1%7D%7Bn_rn_k%7D%5Csum%5Climits_%7Bi%5Cin%20G_r%2Cj%5Cin%20G_k%7D%20d%5E2_%7Bij%7D%3D%5Cfrac%7B1%7D%7Bn_rn_k%7D%5B%5Csum%5Climits_%7Bi%5Cin%20G_p%2Cj%5Cin%20G_k%7D%20d%5E2_%7Bij%7D%20+%20%5Csum%20%5Climits_%7Bi%5Cin%20G_q%2Cj%5Cin%20G_k%7Dd%5E2_%7Bij%7D%5D

化简为:gif.latex?D%5E2_%7Brk%7D%3D%5Cfrac%7Bn_p%7D%7Bn_r%7DD%5E2_%7Bpk%7D+%5Cfrac%7Bn_q%7D%7Bn_r%7DD%5E2_%7Bqk%7D

具体是实现

import numpy as np
from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import dendrogram,linkage

data=np.array([[190.33,43.77,9.73,60.54,49.01,9.04],
               [135.2,36.4,10.47,44.16,36.49,3.94],
               [95.21,22.83,9.3,22.44,22.81,2.8],
               [104.78,25.11,6.4,9.89,18.17,3.25],
               [128.41,27.63,8.94,12.58,23.99,3.27],
               [145.68,32.83,17.79,27.29,39.09,3.47]
               ])
z=linkage(data,"average")
print(z)
#画图
fig,ax=plt.subplots(figsize=(8,8))#指定figure的长宽为8*8
dendrogram(z,leaf_font_size=14)#画树状图
plt.show()

88aa32b708674bca9020d1cfc75aef4d.png

a4f79c6e57334421a7bf5bea9ba1ec20.png 

 

 

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
层次聚类分析是一种常见的聚类算法,通过计算不同数据样本之间的相似度,将数据样本逐步合并成不同的聚类簇。在商圈分析中,我们可以使用层次聚类分析算法对基站定位数据进行聚类,以识别不同的商圈。 具体步骤如下: 1. 数据准备:收集基站定位数据,并将其转换为可计算距离的经纬度坐标。 2. 计算距离矩阵:使用距离公式计算不同基站之间的距离,得到一个距离矩阵。 3. 层次聚类分析:使用聚类算法对距离矩阵进行聚类分析,得到不同的商圈簇。 4. 结果展示:将聚类结果可视化,以便于分析和理解。 在Python中,可以使用scipy库中的层次聚类分析函数进行商圈分析。示例代码如下: ```python import numpy as np from scipy.cluster.hierarchy import dendrogram, linkage import matplotlib.pyplot as plt # 读取基站定位数据 data = np.loadtxt('stations.csv', delimiter=',') # 计算距离矩阵 dist_mat = np.zeros((len(data), len(data))) for i in range(len(data)): for j in range(len(data)): dist_mat[i][j] = np.sqrt((data[i][0]-data[j][0])**2 + (data[i][1]-data[j][1])**2) # 层次聚类分析 Z = linkage(dist_mat, 'ward') # 可视化结果 fig = plt.figure(figsize=(25, 10)) dn = dendrogram(Z) plt.show() ``` 在上述代码中,我们首先读取了基站定位数据,并计算了距离矩阵。然后,使用scipy库中的linkage函数进行层次聚类分析,并使用dendrogram函数将聚类结果可视化。在可视化结果中,每个聚类簇都用不同的颜色表示,以便于分辨不同的商圈。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值