第九章　聚类　Clustering

最新推荐文章于 2022-10-12 17:55:29 发布

GeekDengshuo

最新推荐文章于 2022-10-12 17:55:29 发布

阅读量286

点赞数

分类专栏：机器学习文章标签：聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37904945/article/details/80338610

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

第九章　聚类

(Unsupervised Learning)无监督学习:
　　　　训练样本的标记信息是未知的，通过对无标记数据的训练来找出数据内部所存在的规律以及性质．为进一步的数据分析打下基础

１．知识点

聚类过程中会自动的形成簇结构，但是算法对簇(cluster)没有概念，这是在运算过程中自己出现的聚类现象，这个簇的名字需要自己来进行定义

聚类可作为一个单独的过程来完成，用于去寻找数据的内部性质及分布结构，当然也可以作为分类等其他学习任务的前驱过程．

当对数据的类不是很明确的时候，可以将数据先进行聚类，根据聚类结果将每个簇定义为一个类，再基于这些类进行训练分类模型

性能度量（performance measure）

性能度量也叫聚类的”有效性指标（validity index）”
物以类聚：
　　　　簇内相似度高，簇间相似度低．

%E9%80%89%E5%8C%BA_001.png

%E9%80%89%E5%8C%BA_002.png

距离计算（distance measure）

%E9%80%89%E5%8C%BA_003.png

闵科夫斯基距离，这是一种最常用的距离
可以变形成欧式距离和曼哈顿距离（典型的街区距离公式）　　这都是经典的距离公式．

一个小插曲：公式在推导过程中经常会强调不失一般性，这个＂不失一般性＂是什么意思？

原型聚类：第一步原型的初始化，第二步对根据不同的公式进行迭代优化更新求解．

K-means算法，根据最小平方差公式（最小二乘法）来进行迭代优化

递归＆迭代

简单来说：递归就是函数不断的调用自己，
　　　　　迭代就是函数Ａ不断调用函数Ｂ的过程

知识点有点复杂，相对知识较多，还没有完整的理论体系，先不着急学习．

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。