第九章 聚类 Clustering

第九章 聚类

(Unsupervised Learning)无监督学习:
    训练样本的标记信息是未知的,通过对无标记数据的训练来找出数据内部所存在的规律以及性质.为进一步的数据分析打下基础

1.知识点

聚类过程中会自动的形成簇结构,但是算法对簇(cluster)没有概念,这是在运算过程中自己出现的聚类现象,这个簇的名字需要自己来进行定义

聚类可作为一个单独的过程来完成,用于去寻找数据的内部性质及分布结构,当然也可以作为分类等其他学习任务的前驱过程.

当对数据的类不是很明确的时候,可以将数据先进行聚类,根据聚类结果将每个簇定义为一个类,再基于这些类进行训练分类模型

性能度量(performance measure)

性能度量也叫聚类的”有效性指标(validity index)”
物以类聚:
    簇内相似度高,簇间相似度低.

%E9%80%89%E5%8C%BA_001.png

%E9%80%89%E5%8C%BA_002.png

距离计算(distance measure)

%E9%80%89%E5%8C%BA_003.png

闵科夫斯基距离,这是一种最常用的距离
可以变形成欧式距离和曼哈顿距离(典型的街区距离公式)  这都是经典的距离公式.

一个小插曲:公式在推导过程中经常会强调不失一般性,这个"不失一般性"是什么意思?

原型聚类:第一步原型的初始化,第二步对根据不同的公式进行迭代优化更新求解.

K-means算法,根据最小平方差公式(最小二乘法)来进行迭代优化

递归&迭代

简单来说:递归就是函数不断的调用自己,
     迭代就是函数A不断调用函数B的过程

知识点有点复杂,相对知识较多,还没有完整的理论体系,先不着急学习.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值