聚类算法-学习笔记整理

最新推荐文章于 2022-07-31 18:10:53 发布

吃一口桃酥

最新推荐文章于 2022-07-31 18:10:53 发布

阅读量1.6k

点赞数

分类专栏：笔记文章标签：机器学习 python 聚类算法

本文链接：https://blog.csdn.net/sinat_28015305/article/details/106533092

版权

笔记专栏收录该内容

73 篇文章 37 订阅

订阅专栏

聚类算法

一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。
在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。

聚类算法在现实中的应用

用户画像，广告推荐，Data Segmentation，搜索引擎的流量推荐，恶意流量识别
基于位置信息的商业推送，新闻聚类，筛选排序
图像分割，降维，识别；离群点检测；信用卡异常消费；发掘相同功能的基因片段
在这里插入图片描述

K-means算法api

sklearn.cluster.KMeans(n_clusters=8)

参数:
- n_clusters:开始的聚类中心数量
  - 整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数。
方法:
- estimator.fit(x)
- estimator.predict(x)
- estimator.fit_predict(x)
  - 计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)

案例

随机创建不同二维数据集作为训练集，并结合k-means算法将其聚类，尝试分别聚类不同数量的簇，并观察聚类效果：
在这里插入图片描述

from sklearn.datasets.samples_generator import make_blobs
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# 1. 生成数据
# make_blobs(n_features=生成数据维度,n_samples=样本数量,centers=[每个类别中心坐标],cluster_std=[每个类别离散程度-方差])
x,y = make_blobs(n_features=2,n_samples=1000,centers=[[-2,-2],[-1,-1],[0,0],[1,1]],cluster_std=[0.4,0.2,0.2,0.2])

# 绘制图像 
plt.figure(figsize=(20,8))
plt.scatter(x[:,0],x[:,1],c=y)
plt.show()

在这里插入图片描述

# 用Kmeans聚类
# 建立模型
estimator = KMeans(n_clusters=4)
# 聚类算法属无监督学习,只传递特征值
estimator.fit(x) 

# 获取分类结果即预测值
y_predict = estimator.predict(x)

# 绘制图像
# 聚类后改变的是每个样本目标值即y即类别,而非x的值
plt.figure(figsize=(20,8))
plt.scatter(x[:,0],x[:,1],c=y_predict)
plt.show()

在这里插入图片描述

k-means聚类步骤

随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程

通过下图解释实现流程：
STEP1:随机在数据中选取三个点，当做三个类别的中心点（K1,K2,K3）
STEP2:计算剩余点分别到这三个点的距离，从而每个样本点有三个距离（a,b,c），从中选择距离最近的一个点作为自己的标记，形成三个族群
STEP3:分别计算这三个族群的平均值，把三个平均值与之前的三个旧中心点（K1,K2,K3）进行比较，如果相同，则结束聚类；如果不相同，则将这三个平均值作为新的中心，STEP2。
在这里插入图片描述
k-means其实包含两层内容：
K : 初始中心点个数（计划聚类数）
means：求中心点到其他数据点距离的平均值
由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。
案例:
在这里插入图片描述
1、随机设置K个特征空间内的点作为初始的聚类中心（本案例中设置p1和p2）

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
在这里插入图片描述
4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程【经过判断，需要重复上述步骤，开始新一轮迭代】

5、当每次迭代结果不变时，认为算法收敛，聚类完成，K-Means一定会停下，不可能陷入一直选质心的过程。
在这里插入图片描述

模型评估

误差平方和(SSE \The sum of squares due to error)

SSE:将所有样本到对应类别中心的距离平方加起来
下图中数据-0.2, 0.4, -0.8, 1.3, -0.7, 均为真实值和预测值的差
在这里插入图片描述
在k-means中的应用:

公式各部分内容:

上图中: k=2

SSE图最终的结果,对图松散度的衡量.(eg: SSE(左图)<SSE(右图))
SSE随着聚类迭代,其值会越来越小,直到最后趋于稳定:
如果质心的初始值选择不好,SSE只会达到一个不怎么好的局部最优解.

“肘”方法 (Elbow method) — K值确定

在这里插入图片描述

对于n个点的数据集，迭代计算k from 1 to n，每次聚类完成后计算每个点到其所属的簇中心的距离的平方和；
平方和是会逐渐变小的，直到k==n时平方和为0，因为每个点都是它所在的簇中心本身。
在这个平方和变化过程中，会出现一个拐点也即“肘”点，下降率突然变缓时即认为是最佳的k值。

在决定什么时候停止训练时，肘形判据同样有效，数据通常有更多的噪音，在增加分类无法带来更多回报时，我们停止增加类别。

轮廓系数法（Silhouette Coefficient）

结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果：

在这里插入图片描述
目的：
内部距离最小化，外部距离最大化
S = 0意味着a=b即两个簇相同，且样本i为两个簇交点；s<0,意味着a>b，即a簇的样本i在b簇内，即样本被分错了。S越大越接近1，表明分类效果越好。

计算样本i到同簇其他样本的平均距离ai，ai 越小样本i的簇内不相似度越小，说明样本i越应该被聚类到该簇。
计算样本i到最近簇Cj 的所有样本的平均距离bij，称样本i与最近簇Cj 的不相似度，定义为样本i的簇间不相似度：bi =min{bi1, bi2, …, bik}，bi越大，说明样本i越不属于其他簇。
求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。
平均轮廓系数的取值范围为[-1,1]，系数越大，聚类效果越好。
簇内样本的距离越近，簇间样本距离越远

CH系数（Calinski-Harabasz Index）

Calinski-Harabasz：
类别内部数据的协方差越小越好，类别之间的协方差越大越好（换句话说：类别内部数据的距离平方和越小越好，类别之间的距离平方和越大越好），
这样的Calinski-Harabasz分数s会高，分数s高则聚类效果越好。
在这里插入图片描述
tr为矩阵的迹, Bk为类别之间的协方差矩阵，Wk为类别内部数据的协方差矩阵
m为训练集样本数，k为类别数。

使用矩阵的迹进行求解的理解：
矩阵的对角线可以表示一个物体的相似性
在机器学习里，主要为了获取数据的特征值，那么就是说，在任何一个矩阵计算出来之后，都可以简单化，只要获取矩阵的迹，就可以表示这一块数据的最重要的特征了，这样就可以把很多无关紧要的数据删除掉，达到简化数据，提高处理速度。
CH需要达到的目的：
 用尽量少的类别聚类尽量多的样本，同时获得较好的聚类效果。

总结

肘部法
下降率突然变缓时即认为是最佳的k值
SC系数
取值为[-1, 1]，其值越大越好
CH系数
分数s高则聚类效果越好

算法优化

k-means算法小结
优点：

原理简单（靠近中心点），实现容易
聚类效果中上（依赖K的选择）
空间复杂度o(N)，时间复杂度o(IKN)
N为样本点个数，K为中心点个数，I为迭代次数

缺点：

对离群点，噪声敏感（中心点易偏移）
很难发现大小差别很大的簇及进行增量计算
结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）

Canopy算法配合初始聚类

在这里插入图片描述

Canopy聚类算法
优点：
1.Kmeans对噪声抗干扰较弱，通过Canopy对比，将较小的NumPoint的Cluster直接去掉有利于抗干扰。
2.Canopy选择出来的每个Canopy的centerPoint作为K会更精确。
3.只是针对每个Canopy的内做Kmeans聚类，减少相似计算的数量。

缺点：
1.算法中 T1、T2的确定问题，依旧可能落入局部最优解

K-means++

在这里插入图片描述

K-means++
算法步骤：
（1）从输入的数据点集合中随机选择一个点作为第一个聚类中心
（2）对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
（3）选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大
（4）重复2和3直到k个聚类中心被选出来
（5）利用这k个初始的聚类中心来运行标准的k-means算法
kmeans++目的，让选择的质心尽可能的分散
如下图中，如果第一个质心选择在圆心，那么最优可能选择到的下一个点在P(A)这个区域（根据颜色进行划分）
在这里插入图片描述

二分k-means

实现流程:
1.所有点作为一个簇
2.将该簇一分为二
3.选择能最大限度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。
4.以此进行下去，直到簇的数目等于用户给定的数目k为止。
在这里插入图片描述
隐含的一个原则
因为聚类的误差平方和能够衡量聚类性能，该值越小表示数据点越接近于他们的质心，聚类效果就越好。所以需要对误差平方和最大的簇进行再一次划分，因为误差平方和越大，表示该簇聚类效果越不好，越有可能是多个簇被当成了一个簇，所以我们首先需要对这个簇进行划分。
二分K均值算法可以加速K-means算法的执行速度，因为它的相似度计算少了并且不受初始化问题的影响，因为这里不存在随机点的选取，且每一步都保证了误差最小

k-medoids（k-中心聚类算法）

算法流程：
( 1 )总体n个样本点中任意选取k个点作为medoids
( 2 )按照与medoids最近的原则，将剩余的n-k个点分配到当前最佳的medoids代表的类中
( 3 )对于第i个类中除对应medoids点外的所有其他点，按顺序计算当其为新的medoids时，代价函数的值，遍历所有可能，选取代价函数最小时对应的点作为新的medoids
( 4 )重复2-3的过程，直到所有的medoids点不再发生变化或已达到设定的最大迭代次数
( 5 )产出最终确定的k个类

K-medoids和K-means是有区别的，不一样的地方在于中心点的选取

K-means中，将中心点取为当前cluster中所有数据点的平均值，对异常点很敏感
K-medoids中，将从当前cluster 中选取到其他所有（当前cluster中的）点的距离之和最小的点作为中心点。

k-medoids对噪声鲁棒性好。
例：当一个cluster样本点只有少数几个，如（1,1）（1,2）（2,1）（1000,1000）。其中（1000,1000）是噪声。如果按照k-means质心大致会处在（1,1）（1000,1000）中间，这显然不是我们想要的。这时k-medoids就可以避免这种情况，他会在（1,1）（1,2）（2,1）（1000,1000）中选出一个样本点使cluster的绝对误差最小，计算可知一定会在前三个点中选取。
k-medoids只能对小样本起作用，样本大，速度就太慢了，当样本多的时候，少数几个噪音对k-means的质心影响也没有想象中的那么重，所以k-means的应用明显比k-medoids多。

特征降维

降维

降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程
降低随机变量的个数
在这里插入图片描述

降维的两种方式

特征选择
主成分分析（可以理解一种特征提取的方式）

特征选择

数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。
方法

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
- 方差选择法：低方差特征过滤
- 相关系数
Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
- 决策树:信息熵、信息增益
- 正则化：L1、L2
- 深度学习：卷积等

低方差特征过滤

删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

特征方差小：某个特征大多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别

API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)

删除所有低方差特征
Variance.fit_transform(X)
- X:numpy array格式的数据[n_samples,n_features]
- 返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。
- VarianceThreshold,指定阀值方差

from sklearn.feature_selection import VarianceThreshold
import pandas as pd 

data = pd.read_csv('/home/python/Desktop/test_data/factor_returns.csv')
data.head()

在这里插入图片描述

x = data.iloc[:,1:10] # 取1-10列作为特征值
x.shape  # (2318, 9)

# 初始化转换器
# threshold低于多少方差进行过滤
transoform = VarianceThreshold(threshold=1.0)
res = transoform.fit_transform(x)
res.shape  # (2318, 8)

相关系数

主要实现方式：

皮尔逊相关系数
斯皮尔曼相关系数

皮尔逊相关系数(Pearson Correlation Coefficient)
反映变量之间相关关系密切程度的统计指标
在这里插入图片描述
相关系数的值介于–1与+1之间，即–1≤ r ≤+1。其性质如下：

当r>0时，表示两变量正相关，r<0时，两变量为负相关
当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系
当0<|r|<1时，表示两变量存在一定程度的相关。且|r|越接近1，两变量间线性关系越密切；|r|越接近于0，表示两变量的线性相关越弱
一般可按三级划分：|r|<0.4为低度相关；0.4≤|r|<0.7为显著性相关；0.7≤|r|<1为高度线性相关

案例：
在这里插入图片描述

= 0.9942
所以最终得出结论是广告投入费与月平均销售额之间有高度的正相关关系。

Api
from scipy.stats import pearsonr

x : (N,) array_like
y : (N,) array_like Returns: (Pearson’s correlation coefficient, p-value)

x1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]
x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]

from scipy.stats import pearsonr
# 皮尔逊相关系数
pearsonr(x1,x2)  # 传递两列特征值  # (0.9941983762371884, 4.922089955456964e-09)

斯皮尔曼相关系数(Rank IC)
反映变量之间相关关系密切程度的统计指标
在这里插入图片描述
n为等级个数，d为二列成对变量的等级差数
等级差
一个数的等级，就是将它所在的一列按照从小到大排序后，这个数所在的位置。

根据公式计算可得：
X和Y的斯皮尔曼相关系数 rs = 0.875

Api
from scipy.stats import spearmanr

x1 = [12.5, 15.3, 23.2, 26.4, 33.5, 34.4, 39.4, 45.2, 55.4, 60.9]
x2 = [21.2, 23.9, 32.9, 34.1, 42.5, 43.2, 49.0, 52.8, 59.4, 63.5]

from scipy.stats import spearmanr
# 斯皮尔曼相关系数
spearmanr(x1,x2) # SpearmanrResult(correlation=0.9999999999999999, pvalue=6.646897422032013e-64)

斯皮尔曼相关系数表明 X (自变量) 和 Y (因变量)的相关方向。如果当X增加时， Y 趋向于增加, 斯皮尔曼相关系数则为正
与之前的皮尔逊相关系数大小性质一样，取值 [-1, 1]之间

主成分分析(PCA)
定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量
作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。
应用：回归分析或者聚类分析当中

主成分分析也称为卡尔胡宁-勒夫变换（Karhunen-Loeve Transform），是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩，数据预处理等。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量，称为主成分（ principal components）。新的低维数据集会经可能的保留原始数据的变量。

PCA将数据投射到一个低维子空间实现降维。例如，二维数据集降维就是把点投射成一条线，数据集的每个样本都可以用一个值表示，不需要两个值。三维数据集可以降成二维，就是把变量映射成一个平面。一般情况下，n维数据集可以通过映射降成k维子空间，其中k是选取的主成分数目。
PCA

API
sklearn.decomposition.PCA(n_components=None)
将数据分解为较低维数空间

n_components:
- 小数：表示保留百分之多少的信息
- 整数：减少到多少特征
PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
返回值：转换后指定维度的array

data = [[2,8,4,5],

[6,3,0,8],

[5,4,9,1]]
from sklearn.decomposition import PCA

# 初始化转换器 
# n_components 小数,保留百分之多少信息;整数,减少到多少特征.
transform = PCA(n_components=0.9)
# 转化数据
transform.fit_transform(data)

在这里插入图片描述

data = [[2,8,4,5],

[6,3,0,8],

[5,4,9,1]]
from sklearn.decomposition import PCA

# 初始化转换器 
# 整数,降低到多少维度
transfer = PCA(n_components=3)
# 转化数据
transform.fit_transform(data)

在这里插入图片描述

案例：探究用户对物品类别的喜好细分降维

在这里插入图片描述
数据如下：

order_products__prior.csv：订单与商品信息
- 字段：order_id, product_id, add_to_cart_order, reordered
products.csv：商品信息
- 字段：product_id, product_name, aisle_id, department_id
orders.csv：用户的订单信息
- 字段：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所属具体物品类别
- 字段： aisle_id, aisle

基本步骤：

获取数据
数据基本处理
2.1 合并表格
2.2 交叉表合并
2.3 数据截取
特征工程 — pca
机器学习（k-means）
模型评估

sklearn.metrics.silhouette_score(X, labels)
- 计算所有样本的平均轮廓系数
- X：特征值
- labels：被聚类标记的目标值

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 1.获取数据
order_product = pd.read_csv("./data/instacart/order_products__prior.csv")
products = pd.read_csv("./data/instacart/products.csv")
orders = pd.read_csv("./data/instacart/orders.csv")
aisles = pd.read_csv("./data/instacart/aisles.csv")

# 2.数据基本处理
# 2.1 合并表格
# 2.1 合并表格
table1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table2 = pd.merge(table1, orders, on=["order_id", "order_id"])
table = pd.merge(table2, aisles, on=["aisle_id", "aisle_id"])
# 2.2 交叉表合并
table = pd.crosstab(table["user_id"], table["aisle"])
# 2.3 数据截取
table = table[:1000]

# 3.特征工程-PCA
transfer = PCA(n_components=0.9)
data = transfer.fit_transform(table)

# 4.训练模型
estimator = KMeans(n_clusters=8, random_state=22)
estimator.fit_predict(data) 

# 5.模型评估
silhouette_score(data, y_predict)