无监督学习

聚类

原型聚类:
聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。算法先对原型进行初始化,然后对原型迭代更新求解。 如: KMeans

密度聚类:
从样本密度的角度,考察样本之间的可连接性,基于可连接样本,不断扩展聚类簇,以获得最终的结果。

层次聚类:
从不同层次,对数据集进行划分,从而形成树形的聚类结构。
数据集的划分,可采用“自底向上”、“自顶向下”的方式。

AP聚类

Affinity Propagation Clustering(AP) 2007年发表在Science
适合高维、多类数据的快速聚类, 相比于传统的聚类算法,从聚类性能和效率方面,都有大幅度的提升。

吸引度(Responsibility) 矩阵R:数据对象k适合作为数据对象i的聚类中心的程度,表示从i到k的消息;
归属度(Availability) 矩阵A:数据对象i选择数据对象k作为聚类中心的适合程度,表示从k到i的消息。
在这里插入图片描述
重复以上步骤,直到矩阵稳定或者达到最大迭代次数,算法结束。
聚类中心没有变化,则算法结束, 衰减系数,

S为相似度矩阵,S(i, j)取i、j的欧式距离的负值,i=j时,取整个矩阵的最小值或中位数,取得的值越大,产生的类别数量越多。

最终取 a+r最大的k,作为聚类中心。

KMeans

原型聚类的一种,反应的是簇内样本围绕中心向量的紧密程度。 损失函数为: 最小化平方误差。
在这里插入图片描述
过程:

  1. 设定K类, 随机选取K个聚类中心;
  2. 计算样本点到聚类中心的位置, 某样本到哪个聚类中心的距离最短,则选择归为哪一类。
  3. 全部归类后,计算每一类的新的均值,更新类中心。
  4. 循环2、3步,直到聚类中心不再变化(或变化很小),或迭代次数达到上限。

降维

矩阵 向量之间,相邻的元素值总是高度相关的, 因此合并起来,相差并不大。

降低维度,肯定会损失一些信息,表现稍微变差。 如果实在训练太慢,再选择降维。
降维主要是加快训练速度, 去除一些噪声, 不必要的细节。

降维用于可视化, 把高维数据变为2维或3维, 表示出来,可以发现一些
规则。
https://blog.csdn.net/sqiu_11/article/details/78391568

PCA(主成分分析, 无监督)

PCA是一种线性方法,由于PCA只是简单对输入数据进行变换,既可以用在分类问题,也可以用在回归问题。

非线性数据使用核方法,

在降维或特征抽取时,可以满足大部分情况。

保留方差最大;
最终的重构误差(从变换后,回到原始情况)是最小的。
参数:
n_components(保留的主成分个数,特征个数),
whiten(是否白化,使得每个特征具有相同的方差,对降维后的每个特征进行归一化)

LDA(线性判别器, 有监督)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值