无监督学习理论部分——机器学习笔记(三)

目录

前言

一、无监督学习

(一)引入

(二)定义

(三)优点

(四)主要应用

二、聚类分析

(一)定义

(二)常见聚类算法

1.KMeans聚类

2.均值漂移聚类(Meanshift)

3.DBSCAN算法(基于密度的空间聚类算法)

三、K均值聚类(KMeans Analysis)

(一)定义

(二)公式

 (三)算法流程​编辑

  (四)算法流程

 (五)Kmeans VS KNN

四、均值漂移聚类

(一)定义

(二)公式

 (三)算法流程


前言

前面学习都是监督式学习,都是有正确结果的,接下来就开始学习无监督式学习。


一、无监督学习

(一)引入

 比如上面有三只猫,对不对,想要把猫分类,那怎么分啊,有很多种方式

方式一:站着或坐着

方式二:全身或半身

方式三:蓝眼球或不是蓝眼球

所以只要找到一个分类方法就行,因此无监督学习的特征:

1.没有对与错

2.寻找数据的共同点

(二)定义

机器学习的一种方法,没有给定实现标记过的训练示例,自动对输入的数据进行分类或分群

(三)优点

算法不受监督信息(偏见)的约束,可能考虑到新的信息

不受标签数据,极大程度扩大数据样本

(四)主要应用

聚类分析,关联规则,维度缩减

应用最广:聚类分析

二、聚类分析

(一)定义

聚类分析又称为群分析,根据对象某些属性的相似度,将其自动化分为不同的类别。

比如:客户划分,基因聚类,新闻关联

(二)常见聚类算法

1.KMeans聚类

核心:

根据数据与中心点的距离划分类别

基于类别数据更新中心点

重复过程直到收敛

特点:

(1)实现简单(2)收敛快

2.均值漂移聚类(Meanshift)

核心:

在中心点一定区域检索数据点

更新中心

重复流程到中心点稳定

特点:

(1)自动发现类别数量,不需要人工选择(2)需要选择区域半径

3.DBSCAN算法(基于密度的空间聚类算法)

核心:

基于区域点密度筛选有效数据

基于有效数据向周边扩张

特点:

(1)过滤噪音数据

(2)不需要认为选择类别数量

(3)数据密度不同时影响结果

三、K均值聚类(KMeans Analysis)

(一)定义

K-均值算法:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,是聚类算法中最基础但也是做为重要的算法

(二)公式

数据点与各簇中心点的距离:

各簇:各个区域中心

 根据距离归类:

归于距离最短的区域

 中心更新:

 

 

 (三)算法流程

  (四)算法流程

        优点:

1.原理简单,实现容易,收敛速度快

2.参数少,方便使用

        缺点:

1.必须要设置簇的数量

2.随机选择初始聚类中心,结果可能缺乏一致性

 (五)Kmeans VS KNN

两个容易能混

 一个有标签,一个没有标签

K近邻分类模型(KNN)

给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中

四、均值漂移聚类

(一)定义

均值漂移算法:一种基于密度梯度上升的聚类算法(沿着密度上升方向寻找聚类中心点)

(二)公式

 就是一开始不断将中心点移动

 (三)算法流程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rosen6664

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值