Kmeans和DBSCAN聚类算法实战

本文介绍了如何使用Kmeans和DBSCAN对beer数据集进行聚类。Kmeans部分,先将数据分为2和3个簇,接着讨论了标准化数据对聚类的影响,结果显示标准化后聚类效果反而下降。DBSCAN部分,通过调整eps和min_samples参数观察聚类效果,并提供了相关参考链接。
摘要由CSDN通过智能技术生成

1.问题描述
      对beer数据集进行分簇。①针对于Kmeans方法,首先将数据集分成2个和3个簇,查看一下结果;然后对数据集的特征进行标准化,对比了为标准化的结果;最后通过设置不同的簇的数量,来查看聚类效果。②针对于DBMSAN方法,通过设置不同的eps邻域半径和核心对象最小的阈值min_samples两个参数的值,来观察聚类效果。
2.Kmeans聚类算法

# beer dataset
import pandas as pd
beer = pd.read_csv('data.txt',sep=' ')
beer

在这里插入图片描述

 X = beer[["calories","sodium","alcohol","cost"]]

2.1将数据集分别分成2和3个簇

from sklearn.cluster import KMeans
km = KMeans(n_clusters = 3).fit(X)
km2 = KMeans(n_clusters=2).fit(X)

添加新的列,即每条数据所归属的簇的id

beer['cluster'] = km.labels_
beer['cluster2'] = km2.labels_

获得聚类中心

from pandas.plotting import scatter_matrix
%matplotlib inline
cluster_center = km.cluster_centers_
cluster_center2 = km2.cluster_centers_

用各个簇的特征平均值来表示中心的所有特征值

centers = beer.groupby('cluster').mean().reset_index()
centers

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值