目录
前言
前面学习都是监督式学习,都是有正确结果的,接下来就开始学习无监督式学习。
一、无监督学习
(一)引入
比如上面有三只猫,对不对,想要把猫分类,那怎么分啊,有很多种方式
方式一:站着或坐着
方式二:全身或半身
方式三:蓝眼球或不是蓝眼球
所以只要找到一个分类方法就行,因此无监督学习的特征:
1.没有对与错
2.寻找数据的共同点
(二)定义
机器学习的一种方法,没有给定实现标记过的训练示例,自动对输入的数据进行分类或分群
(三)优点
算法不受监督信息(偏见)的约束,可能考虑到新的信息
不受标签数据,极大程度扩大数据样本
(四)主要应用
聚类分析,关联规则,维度缩减
应用最广:聚类分析
二、聚类分析
(一)定义
聚类分析又称为群分析,根据对象某些属性的相似度,将其自动化分为不同的类别。
比如:客户划分,基因聚类,新闻关联
(二)常见聚类算法
1.KMeans聚类
核心:
根据数据与中心点的距离划分类别
基于类别数据更新中心点
重复过程直到收敛
特点:
(1)实现简单(2)收敛快
2.均值漂移聚类(Meanshift)
核心:
在中心点一定区域检索数据点
更新中心
重复流程到中心点稳定
特点:
(1)自动发现类别数量,不需要人工选择(2)需要选择区域半径
3.DBSCAN算法(基于密度的空间聚类算法)
核心:
基于区域点密度筛选有效数据
基于有效数据向周边扩张
特点:
(1)过滤噪音数据
(2)不需要认为选择类别数量
(3)数据密度不同时影响结果
三、K均值聚类(KMeans Analysis)
(一)定义
K-均值算法:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,是聚类算法中最基础但也是做为重要的算法
(二)公式
数据点与各簇中心点的距离:
各簇:各个区域中心
根据距离归类:
归于距离最短的区域
中心更新:
(三)算法流程
(四)算法流程
优点:
1.原理简单,实现容易,收敛速度快
2.参数少,方便使用
缺点:
1.必须要设置簇的数量
2.随机选择初始聚类中心,结果可能缺乏一致性
(五)Kmeans VS KNN
两个容易能混
一个有标签,一个没有标签
K近邻分类模型(KNN)
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中
四、均值漂移聚类
(一)定义
均值漂移算法:一种基于密度梯度上升的聚类算法(沿着密度上升方向寻找聚类中心点)
(二)公式
就是一开始不断将中心点移动