Agglomerative Clustering

import pandas as pd
import numpy as np
import random
from sklearn.cluster import AgglomerativeClustering
import scipy.cluster.hierarchy as shc
import matplotlib.pyplot as plt

# generate data
pages = ['page_{n}'.format(n=page) for page in range(20)]

page_data = pd.DataFrame(index=[i for i in range(10000)])
for i in pages:
    page_data[i] = [random.randrange(0,2,1) for i in range(10000)]

# model
ag = AgglomerativeClustering(n_clusters=2,linkage='ward')

# fit data
page_data_n = page_data[:200]
ag.fit(page_data_n)

# plot dendrogram
plt.figure(figsize=(15, 10))
dend = shc.dendrogram(shc.linkage(page_data_n, method='ward'))

# use sklearn compute distance of paired children, node for linkage matrix for dendrogram
def plot_dendrogram(self, y_top, y_bot, **kwargs):
    distance = np.arange(self.children_.shape[0])
    position = np.arange(2, self.children_.shape[0]+2)

    linkage_matrix = np.column_stack([self.children_, distance, position]).astype(float)

    fig, ax = plt.subplots(figsize=(15, 10))
    shc.dendrogram(linkage_matrix, **kwargs)
    ax.set_ylim(y_bot,y_top)
    plt.show()

plot_dendrogram(ag,y_bot=100, y_top=210, p=100,truncate_mode='lastp',color_threshold=180)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值