机器学习算法笔记-聚类

本文介绍了k-means聚类算法的基本概念、评价指标、参数选择,以及在图像分割和半监督学习中的应用。同时,讨论了DBSCAN聚类算法,包括其基本概念、参数选择及其优缺点。k-means的优点是简单快速,但k值的选取是个挑战;DBSCAN则能发现任意形状的簇,但参数调整较困难。
摘要由CSDN通过智能技术生成

k-means聚类

相比于之前的线性回归和逻辑回归,k-means聚类算法属于无监督问题,因为没有标签,所以评估比较困难。

k-means的基本概念

  1. 要得到簇的个数,需要指定k值
  2. 质心:均值,即向量各维的平均
  3. 距离的度量:常用欧氏距离得距离和余弦相似度(先标准化)
  4. 优化目标:每一簇内所有点离质心的距离最短。
    优点和缺点:
    优点,简单,快速,适合常规数据集。
    缺点,k难确定,复杂度与样本呈线性关系,很难发现任意形状的簇(就是形状比较随意的那种)。

不稳定结果

k-means每次分类的结果不一定完全一样

评价指标

  1. **inertia:**所有样本点到各自所属类的距离的平方,越小越好。可以设置多次迭代,计算inertia,取inertia最小聚类结果。
  2. 轮廓系数
    轮廓系数的参数有两个:
    (1)ai:计算样本i到同簇其他样本的平均距离ai,ai乘坐样本的簇内不相似度,越小越好
    (2)bi:计算样本i到其他簇的所有样本的距离,称为样本与簇Cj的不相似度,bi是其中所有距离的最小值,称为样本的簇间不相似度。
    结论
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值