机器学习--聚类

聚类(Clustering)

        无监督学习的代表

        聚类在“无监督学习”任务中研究最多、应用最广

目标:将数据样本划分为若干个通常不相交的“簇”(cluster)

           既可以作为一个单独过程(用于找寻数据内在的分布结构),也可作为分类等其他学习任务的

           先驱过程(预处理)。


距离计算

距离度量(distance metric)需满足的基本性质

        · 非负性dist(x_i,x_j)\geq 0

        · 同一性dist(x_i,x_j)=0当且仅当x_i=x_j

        · 对称性dist(x_i,x_j)=dist(x_j,x_i)

        ` 直递性dist(x_i,x_j)\leq dist(x_i,x_k)+dist(x_k,x_j)

** 非度量距离(Non-Metric distance)

        违背距离度量基本准则中的某一项(通常违背最多的是直递性)

** 相似度:距离越远相似度越小,相似度不一定要满足上面的阿四个基本准则

常用距离形式:

闵可夫斯基距离(Minkowski distance) —— 对于实值属性

p = 2:欧氏距离(Euclidean distance)

p = 1:曼哈顿距离(Manhattan distance)

** 对于离散属性:区分有序和无序

有序属性:按照顺序赋值,然后依据上式计算

VDM(Value Different Metric) —— 对于无序(non-ordinal)属性

# VDM用两个无序属性出现的机会来评估两者是否相似

MinkovDM —— 对于混合属性

#上式满足距离度量的四个条件,也是一个距离

# 混合属性:有连续也有离散,离散里面有有序的又有无序的


## 聚类的“好坏”不存在绝对标准

The goodness of clustering depends on the opinion of the user.

## 聚类也许是机器学习中“新算法”出现最多、最快的领域,总能找到一个新的“标准”,使以往算法对它无能为力 —— 聚类算法是无穷无尽的,是学不完的

=> 要先明确标准,再按照标准去改算法,重要是掌握聚类算法的思路

常见聚类方法

原型聚类

        亦称“基于原型的聚类”(prototype-based clustering)
假设:

        聚类结构能通过一组原型刻画
过程:

        先对原型初始化,然后对原型进行迭代更新求解代表:k均值聚类,学习向量量化(LVQ),高斯混合聚类

代表:

        k均值聚类,学习向量量化(LVQ),高斯混合聚类

# 原型聚类研究最多,背后有非常好的概率意义上的解释

## 原型聚类算法(如:k均值聚类)都可以看作高斯混合聚类的特例

** 高斯混合概率

优点:可以用概率,既可以从贝叶斯学习的角度去诠释,也可以从统计学习的角度去诠释,比较好解释

缺点:通常只能找出椭球形的聚类结构

eg.出现半包围式("香肠形")样本模型时,k均值算法(原型聚类)会出现异类间距离小于同类间距离,从而错误划分。这种情况(香肠形)密度聚类(特别是DBSCAN)能有效处理。

密度聚类

        亦称“基于密度的聚类”(density-based clustering)
假设:

        聚类结构能通过样本分布的紧密程度确定
过程:

        从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇
代表:

        DBSCAN,OPTICS, DENCLUE


层次聚类(hierarchical clustering)

假设:

        能够产生不同粒度的聚类结果
过程:

        在不同层次对数据集进行划分,从而形成树形的聚类结构.代表:AGNES(自底向上),DIANA(自顶向下)

代表:

        AGNES(自底向上),DIANA(自顶向下)

  • 20
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值