聚类中K-Means和DBscan的使用

最新推荐文章于 2023-01-12 11:15:54 发布

Alive Ιеι

最新推荐文章于 2023-01-12 11:15:54 发布

阅读量149

点赞数

分类专栏： python 机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Alive_lei/article/details/115014312

版权

python 同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

26 篇文章 1 订阅

订阅专栏

coding=utf-8

“”"
author:lei
function:
“”"

import pandas as pd
from sklearn.cluster import KMeans

beer = pd.read_csv(“data.txt”, sep="")

X = beer[[“calories”, “sodium”, “alcohol”, “cost”]]

km = KMeans(n_clusters=3).fit(X)
km2 = KMeans(n_clusters=2).fit(X)

beer[“cluster”] = km.labels_
beer[“cluster2”] = km2.labels_

beer.sort_values[“cluster”] # 按照cluster对数据进行排序

cluster_centers = km.cluster_centers_
cluster_centers_2 = km2.cluster_centers_

beer.groupby(“cluster”).mean() # 聚类分析三个类别的各项平均值
beer.groupby(“cluster2”).mean()

centers = beer.groupby(“cluster”).mean().reset_index()

画图

import matplotlib.pyplot as plt
plt.rcParams[“font.size”] = 14

import numpy as np
colors = np.array([“red”, “green”, “blue”, “yellow”])

plt.scatter(beer[“calories”], beer[“alcohol”], c=colors[beer[“cluster”]])
plt.scatter(centers.calories, centers.alcohol, linewidths=3, marker="+", s=300, c=“black”)

plt.xlabel(“Calories”)
plt.ylabel(“Alcohol”)

标准化

from sklearn.preprocessing import StandardScaler

scalar = StandardScaler()
X_scaled = scalar.fit_transform(X)

km = KMeans(n_clusters=3).fit(X_scaled)

beer[“scaled_cluster”] = km.labels_
beer.sort_values[“scaled_cluster”]

聚类评估

from sklearn import metrics

轮廓系数

score_scaled = metrics.silhouette_score(X, beer.scaled_cluster)
score = metrics.silhouette_score(X, beer.cluster) # 标准化结果
print(score_scaled, score)

scores = []
for k in range(2, 200):
labels = KMeans(n_clusters=k).fit(X).labels_
score = metrics.silhouette_score(X, labels)
scores.append(score)

DBSCAN

from sklearn.cluster import DBSCAN

db = DBSCAN(eps=10, min_samples=2).fit(X) # eps是半径 min_samples是最小的个数

labels = db.labels_ # 获取到聚类结果

beer[“cluster_db”] = labels # 添加一列数据
beer.sort_values[“cluster_db”]

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类中K-Means和DBscan的使用

coding=utf-8“”"author:leifunction:“”"import pandas as pdfrom sklearn.cluster import KMeansbeer = pd.read_csv(“data.txt”, sep="")X = beer[[“calories”, “sodium”, “alcohol”, “cost”]]km = KMeans(n_clusters=3).fit(X)km2 = KMeans(n_clusters=2).fit(X)b
复制链接

扫一扫

专栏目录

Alive Ιеι CSDN认证博客专家 CSDN认证企业博客

码龄5年

164: 原创

23万+: 周排名

78万+: 总排名

27万+: 访问

: 等级

3365: 积分

63: 粉丝

122: 获赞

51: 评论

346: 收藏

私信

关注

热门文章

分类专栏

机器学习 26篇
深度学习 27篇
pytorch 4篇
爬虫 9篇
C语言 108篇
keras 1篇
python 36篇
socket 1篇
迷你服务器 1篇

最新评论

用迭代法求平方根公式：求a的平方根的迭代公式为： X[n+1]=(X[n]+a/X[n])/2 要求前后两次求出的差的绝对值少于0.00001。输出保留3位小数（长浮点数需要用Lf来输出）
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8011418, 请多输出高质量博客, 帮助更多的人
输入一个双精度浮点数，输出这个浮点数的%f结果、保留5位小数的结果、%e、%g格式的结果
遇见57: 为什么不能在同一行输出啊
机器人写唐诗，模型训练
Alive Ιеι: 如果可以，希望上帝能快快帮助我找到那个人，希望，我不在独自难过。不知道再回来看写的这些东西是什么时候，希望那时我已经博士毕业，希望那时我已找到了我爱的人，爱我的人。加油呀，千万不要被这个世界打倒，你会愈加更好的！！！
机器人写唐诗，模型训练
Alive Ιеι: 没想到都四年了，四年前决定学python，决定学人工智能，没想到4年过去了，假如这4年没有接触人工智能，继续做我的网安，会不会更好。但是，学了人工智能让我感受到很多快乐，很多很多快乐。虽然人工智能真的很难，虽然自己真的差劲，但过去了这么久，随着时间的累计，好似自己也没有那么差，没有那么差。今天是个悲伤的一天，与一个人说再也不见的一天。难过到无法自拔，自卑油然而生。但是，这就是生活，相信我会遇到要遇到的那个人，希望这一天不太远。
依旧是输入三个整数，要求按照占8个字符的宽度，并且靠左对齐输出
G_2556108203: 没问题啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。