聚类
原型聚类:
聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。算法先对原型进行初始化,然后对原型迭代更新求解。 如: KMeans
密度聚类:
从样本密度的角度,考察样本之间的可连接性,基于可连接样本,不断扩展聚类簇,以获得最终的结果。
层次聚类:
从不同层次,对数据集进行划分,从而形成树形的聚类结构。
数据集的划分,可采用“自底向上”、“自顶向下”的方式。
AP聚类
Affinity Propagation Clustering(AP) 2007年发表在Science
适合高维、多类数据的快速聚类, 相比于传统的聚类算法,从聚类性能和效率方面,都有大幅度的提升。
吸引度(Responsibility) 矩阵R:数据对象k适合作为数据对象i的聚类中心的程度,表示从i到k的消息;
归属度(Availability) 矩阵A:数据对象i选择数据对象k作为聚类中心的适合程度,表示从k到i的消息。
重复以上步骤,直到矩阵稳定或者达到最大迭代次数,算法结束。
聚类中心没有变化,则算法结束, 衰减系数,
S为相似度矩阵,S(i, j)取i、j的欧式距离的负值,i=j时,取整个矩阵的最小值或中位数,取得的值越大,产生的类别数量越多。
最终取 a+r最大的k,作为聚类中心。
KMeans
原型聚类的一种,反应的是簇内样本围绕中心向量的紧密程度。 损失函数为: 最小化平方误差。
过程:
- 设定K类, 随机选取K个聚类中心;
- 计算样本点到聚类中心的位置, 某样本到哪个聚类中心的距离最短,则选择归为哪一类。
- 全部归类后,计算每一类的新的均值,更新类中心。
- 循环2、3步,直到聚类中心不再变化(或变化很小),或迭代次数达到上限。
降维
矩阵 向量之间,相邻的元素值总是高度相关的, 因此合并起来,相差并不大。
降低维度,肯定会损失一些信息,表现稍微变差。 如果实在训练太慢,再选择降维。
降维主要是加快训练速度, 去除一些噪声, 不必要的细节。
降维用于可视化, 把高维数据变为2维或3维, 表示出来,可以发现一些
规则。
https://blog.csdn.net/sqiu_11/article/details/78391568
PCA(主成分分析, 无监督)
PCA是一种线性方法,由于PCA只是简单对输入数据进行变换,既可以用在分类问题,也可以用在回归问题。
非线性数据使用核方法,
在降维或特征抽取时,可以满足大部分情况。
保留方差最大;
最终的重构误差(从变换后,回到原始情况)是最小的。
参数:
n_components(保留的主成分个数,特征个数),
whiten(是否白化,使得每个特征具有相同的方差,对降维后的每个特征进行归一化)