机器学习笔记

聚类分析是数据挖掘的一种方法,常用于无先验知识的情况,通过距离度量相似性。K-means是一种常见的聚类算法,目标是最小化簇内差异并最大化簇间差异。Python中使用sklearn库的KMeans模型进行聚类,关键参数包括设置类别数n_clusters。
摘要由CSDN通过智能技术生成

非监督学习 

聚类分析常用于数据探索或挖掘前期

  • 没有先验经验做探索性分析

  • 样本量较大时做预处理

常用于解决

  • 数据集可以分几类;每个类别有多少样本量

  • 不同类别中各个变量的强弱关系如何

  • 不同类型的典型特征是什么

一般应用场景

  • 群类别间的差异性特征分析

  • 群类别内的关键特征提取

  • 图像压缩、分割、图像理解

  • 异常检测

  • 数据离散化

聚类分析缺点:

  • 无法提供明确的行动指向

  • 数据异常对结果有影响

聚类方法的关键:距离。两个样本间的距离越小,说明它们之间越相似,越有可能聚成一个类群。相反,两个样本间的距离比较大,说明它们相差越大,越有可能隶属于不同的类群。

通过聚类算法,即使在没有任何先验知识的情况下,基于样本的数据特征,把相似或相近的样本划分为一群,把差异较大或相远的样本划分到另一群,从而形成不同的“簇”

 常用聚类方法:

一、K—means聚类分析:基于点与点之间的距离的相似度来计算最佳类别归属。

Kmeans在进行类别划分过程中及最终结果,始终追求“簇内差异小, 簇间差异大”,

其中差异由样本点到其所在簇的质心的距离衡量。

python语法:

sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm='auto')

 参数详解:

n_cluster:k,告诉模型我们要分几类,默认8,必填;

有监督学习

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值