kmeanssklearn实例_sklearn实践（一）：kmeans聚类

最新推荐文章于 2021-02-17 05:54:35 发布

weixin_39883079

最新推荐文章于 2021-02-17 05:54:35 发布

阅读量1k

点赞数 1

文章标签： kmeanssklearn实例

本文链接：https://blog.csdn.net/weixin_39883079/article/details/111841423

版权

本文介绍了如何使用sklearn的KMeans进行数据聚类。首先，通过实例展示了官方提供的简单数据集如何应用KMeans，然后分享了在处理实际不规整数据时的数据预处理步骤，包括从CSV文件读取数据、数据转换和删除不需要的列。最后，应用KMeans进行聚类，并可视化结果。

摘要由CSDN通过智能技术生成

sklearn实践(一)：kmeans聚类

实践往往比理论要经历更多的挫折。

一、数据处理

官方给的案例里用的都是sklearn自带的数据集，只要import之后便万事大吉，但实际中我们采用的数据往往没有那么规整，也不是可以一下就fit到模型里去的。经过这次经历，打算整理一下大致思路，关于更高级、深入的数据处理，这篇文章不会涉及。

官方案例如下：

>>> from sklearn.cluster import KMeans

>>> import numpy as np

>>> X = np.array([[1, 2], [1, 4], [1, 0],

... [10, 2], [10, 4], [10, 0]])

#其中，X即fit的参数可推断，应当是这种np.array

>>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

>>> kmeans.labels_

array([1, 1, 1, 0, 0, 0], dtype=int32)

#labels_表示样本集中所有样本所属类别(x=1->No.1;x=2->No.1;x=3->No.1;x=4->No.0)

>>> kmeans.predict([[0, 0], [12, 3]])

array([1, 0], dtype=int32)

#以二维数组格式[x,y]输入predict,可输出判断类别结果

>>> kmean

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39883079

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

机器学习sklearn----KMeans实例(图片数据矢量量化的应用)

weixin_43776305的博客

12-04

2894

文章目录矢量量化理解KMeans聚类法导入数据采用KMeans矢量化随机质心法矢量量化理解矢量量化可以理解为数据的压缩，可以看作是一种降维的过程，只是和我们之前知道的降维算法的理论完全不一样。举例来说，我们有一张600 x 600 个像素点的图片，每个像素点有一个颜色，那么这个图片上存在的信息就有360000个。图片上有很多的像素点之间的颜色差异微乎其微，那么我们就可以将这些像素点看作是同一个像素点(相当于KMeans的质心)，将这些像素点的颜色替换为同一个颜色。图片的矢量量化就是将每个像素点的颜色用

kmeanssklearn实例_python sklearn 的k-means聚类易懂实例

weixin_42507411的博客

02-01

1043

使用sklearn库来进行k-means聚类十分简单，官网的教程是挺好的。但其他地方的一些例子和教程则很多都是要么只是写给作者自己看的，要么是代码不能直接运行的。这里我写这篇文章，用尽量简单的易懂方式来封装k-means代码：首先创建一个kmeans.py文件，这个文件是k-means算法的封装文件，里面就定义一个函数，用于利用sklearn库来进行k-means聚类，代码如下：# -*- cod...

参与评论您还未登录，请先登录后发表或查看评论

kmeanssklearn实例_sklearn KMeans聚类算法（总结）

weixin_30430333的博客

02-17

535

基本原理Kmeans是无监督学习的代表，没有所谓的Y。主要目的是分类，分类的依据就是样本之间的距离。比如要分为K类。步骤是：随机选取K个点。计算每个点到K个质心的距离，分成K个簇。计算K个簇样本的平均值作新的质心循环2、3位置不变，距离完成距离Kmeans的基本原理是计算距离。一般有三种距离可选：欧氏距离\[d(x,u)=\sqrt{\sum_{i=1}^n(x_i-\mu_i)^2}\]曼哈顿距...

调用sklearn库的K-Means聚类分析实例

01-26

#class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm=’auto’) #参数： #（1）对于K均值聚类，我们需要给定类别的个数n_cluster，默认值为8； #（2）max_iter为迭代的次数，这里设置最大迭代次数为300； #（3）n_init设为10意味着进行10次随机初始化，选择效果最好的一种来作为模型； #（4）init=’k-means++’ 会由程序自动寻找合适的n_clusters； #（5）tol：float形，默认值= 1e-4，与inertia结合来确定收敛条件； #（6）n_jobs：指定计算所用的进程数； #（7）verbose 参数设定打印求解过程的程度，值越大，细节打印越多； #（8）copy_x：布尔型，默认值=True。当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。 #属性： #（1）cluster_centers_：向量，[n_clusters, n_features] # Coordinates of cluster centers (每个簇中心的坐标？？)； #（2）Labels_:每个点的分类； #（3）inertia_：float，每个点到其簇的质心的距离之和。

python sklearn K-Mearns---实例——消费水平

rankiy的博客

08-20

2725

sklearn.cluster.KMeans K-mearns取类算法 k-mearns算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低 1、随机选择k个点作为初始的聚类中心 2、对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇 3、对每个簇，计算所有点的均值作为新的取类中心 4、重复2、3直到取类中心不再发生改变拓展计算两条数据相似性时，sklearn....

kmeans.rar_kmeans 聚类_kmeans聚类_改进Kmeans聚类_聚类_聚类改进

07-15

改进的kmeans算法，聚类效果良好，比三种算法要好，matlab

mall_customers-:使用kmeans聚类的无监督学习

04-22

mall_customers- 该代码应用了机器学习技术，即Kmeans聚类。... 该代码涉及到数据准备和可视化，使用kmeans技术进行聚类以及使用度量“在群集平方和内”和“ Silhouette_score”进行聚类以找到最佳K。

Kmeans.zip_Kmeans_Kmeans++_kmeans一维 matlab_kmeans聚类_一维聚类 matlab

07-15

网上到处都是一维k均值聚类，而这是一个二维k均值聚类的代码，老外写的，说明较详细，稍加修改就可以融入自己的项目中。

sklearn实战之kmeans(聚类)

qq_39615254的博客

02-11

1566

kmeans聚类算法案例本篇博客只做个人对kmeans算法代码的案例展示 # 常规的导包 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactive='all' import numpy as np import pandas as pd import matpl...

Scikit-learn机器学习实战之Kmeans

沉心修炼

01-04

1万+

Scikit-learn中Kmeans实例

聚类 python_kmeans算法用Python怎么实现啊？

weixin_39969881的博客

11-28

274

虽然有人讲过了，但还是记录一下吧直接用sklean写的话，官网的Python例子是这样的：>>>from sklearn.cluster import KMeans>>> import numpy as np>>> X = np.array([[1, 2], [1, 4], [1, 0],... [4, 2], [4, 4], [4, 0]])>>> kmeans = ...

sklearn.KMeans解析

youhebuke12138的博客

11-25

2721

sklearn.KMeans使用实例实例1 Iris,鸢尾花数据集(UC Irvine Machine Learning Repository) Iris可以从sklearn包内部导入，常常用作分类的训练数据集。这里为了方便展示聚类效果(二维在平面图中效果明显)，选取Iris的前两个维度作为聚类依据。 ...

4.sklearn—kmeans参数、及案例（数据+代码+结果）

热门推荐

菜鸟打怪升级副本

01-28

4万+

完整的案例，数据＋代码+加注释+结果。详细！

kmeans聚类算法python实现_Python实现Kmeans聚类算法

weixin_39565300的博客

12-03

2237

本节内容：本节内容是根据上学期所上的模式识别课程的作业整理而来，第一道题目是Kmeans聚类算法，数据集是Iris(鸢尾花的数据集)，分类数k是3，数据维数是4。关于聚类聚类算法是这样的一种算法：给定样本数据Sample，要求将样本Sample中相似的数据聚到一类。有了这个认识之后，就应该了解了聚类算法要干什么了吧。说白了，就是归类。首先，我们需要考虑的是，如何衡量数据之间的相似程度？比如说，有一...

数学推导+纯Python实现机器学习算法25：kmeans聚类

weixin_37737254的博客

06-20

515

Python机器学习算法实现Author：louwillMachine Learning Lab 聚类分析（Cluster Analysis）是一类经典的无监督学习算法。在给定样...

sklearn聚类算法Kmeans

newsunson的博客

02-01

661

sklearn聚类算法Kmeans 菜菜的sklearn学习笔记文章目录sklearn聚类算法Kmeans概述案例数据生成聚类类的质心聚类的评估可视化分成4类会怎么样概述聚类算法是一种无监督学习算法，也就是说它不需要标签,只需要大量的特征就可以把数据集聚类，然后聚类在自己给他贴标签。这里Kmeans的具体原理不作详述。案例数据生成通过sklearn自带的make_blobs函数可以生成聚类所需的数据集，注意，所生成的数据集是几个分簇。 from sklearn.datasets import

K-means聚类算法

ITpfzl的博客

09-21

834

1、K-means聚类算法聚类算法有很多种，K-Means 是聚类算法中的最常用的一种，算法最大的特点是简单，好理解，运算速度快，但是只能应用于连续型的数据，并且一定要在聚类前需要手工指定要分成几类。 1)先输入 k 的值，即我们指定希望通过聚类得到 k 个分组； 2)从数据集中随机选取 k 个数据点作为初始大佬（质心）； ...

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

weixin_30409849的博客

11-12

173

（一）选取初始数据中的k个对象作为初始的中心，每个对象代表一个聚类中心 #随机生成一组整数sample import numpy as np sample=np.random.randint(1,100,[50,1]) k=3#要分成的类别数 y=np.zeros(50) #定义一个函数来存放开始的聚类中心kc def start_center(sample,k): r...

sk-learn学习之kmeans聚类（2）

v7xyy的博客

08-12

340

K-均值是最普及的聚类算法，算法接受一个未标记的数据集，然后将数据聚类成不同的组。 K-均值是一个迭代算法，假设我们想要将数据聚类成 n 个组，其方法为: 1.首先选择

使用Weka进行数据挖掘：KMeans聚类实践

"数据挖掘学习，包括对weka和KNIME两个工具的对比分析以及使用weka进行kmeans聚类分析的实践" 数据挖掘是利用算法从大量数据中发现有价值信息的过程，广泛应用于商业智能、市场预测、用户行为分析等领域。在数据...