面向面试的机器学习知识点(5)——无监督学习

省流版

本文介绍无监督学习的两种最经典,也是最基础的方法:聚类(K-means)和数据降维(PCA)。这也是实际业务中用的最多的两种算法,值得深入研究。在数据分析面试和保研考研面试等环节均可能出现。

内容很长,创作不易,如果对你有帮助的话,还请三连支持~

文中部分内容来自GPT4.0创作,它已经成为了我日常工作中必不可少的生产力工具。更多教程请参见这篇博客:

GPT4.0升级使用教程​


无监督学习——聚类:目的是将数据点分组成不同的簇,使得同一簇内的数据点彼此相似,而不同簇的数据点差异较大。

K-means

原理:K均值聚类是一种常用的无监督学习算法,用于将数据集划分为K个不同的簇,每个簇中的数据点与该簇中心点最近,并且簇内的数据点相互之间的距离较小。K均值聚类的目标是最小化数据点与所属簇中心点之间的距离之和,通常是通过迭代的方式来实现。

计算方法

  1. 初始化簇中心点:随机选择K个数据点作为初始的簇中心点。
  2. 分配数据点到最近的簇中心点:对于每个数据点,计算其与每个簇中心点之间的距离,并将其分配到距离最近的簇中心点所在的簇中。
  3. 更新簇中心点:对于每个簇,计算该簇中所有数据点的均值,并将其作为新的簇中心点。
  4. 重复迭代:重复步骤2和步骤3,直到簇中心点不再发生变化,或者达到预定的迭代次数。

确定K值的方法

  1. 肘部法则(Elbow Method):这是一种直观的方法。对于不同的 K 值,计算对应的聚类误差(如 SSE,簇内平方和),然后绘制 K 与聚类误差的关系图。通常可以看到在一定 K 值后,聚类误差的下降速度会减缓,形成一个拐点,该点被认为是最佳的 K 值。
  2. 轮廓系数(Silhouette Score):轮廓系数是一种用于衡量聚类质量的指标。对于每个数据点,计算它与同簇内其他数据点的相似度,以及它与最近其他簇内数据点的相似度,然后计算轮廓系数。聚类质量通常在轮廓系数接近于 1 时最佳。
  3. Gap Statistics:Gap Statistics 方法通过与随机数据集进行比较来评估聚类质量。它计算了真实数据与随机数据之间的差异,并选择使这种差异最大化的 K 值。这种方法可以避免过拟合的风险。

距离的计算方式,以及是否能忽略量纲差异

  1. 欧氏距离:是最常用的距离度量方式之一。它衡量了两个点之间的直线距离,即空间中两点之间的距离。但是,欧氏距离没有考虑到不同特征之间的量纲差异,因此在处理具有量纲差异的数据时,可能会受到影响。
  2. 余弦距离:用于衡量两个向量之间的夹角余弦值的差异。它通常用于文本相似度计算等领域,而不适用于考虑特征之间的量纲差异的情况。
  3. 闵可夫斯基距离:是一种通用的距离度量方法,它是欧氏距离和曼哈顿距离的一般化形式。在闵可夫斯基距离中,可以通过设置不同的参数来调整度量方式,但是它仍然不能解决特征量纲差异的问题。
  4. 马氏距离:是一种考虑了特征之间相关性和协方差的距离度量方式。它通过协方差矩阵的逆矩阵对各个特征进行归一化,从而消除了特征之间的量纲差异,使得距离度量更加合理和准确。因此,马氏距离是一种可以规避量纲差异的距离度量方式,特别适用于 K-means 等算法中处理具有量纲差异的数据。

K-means和KNN区别

K-meansKNN
类别聚类分类/回归
监督无监督有监督
计算方法通过优化簇内的数据点之间的距离来分割数据通过计算样本之间的距离来确定最近的邻居,进而进行预测

Python

 # 导入所需的库
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 生成示例数据集
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 创建KMeans聚类器对象,设置簇的数量为4
kmeans = KMeans(n_clusters=4)

# 使用数据拟合模型
kmeans.fit(X)

# 获取簇中心点的坐标
centers = kmeans.cluster_centers_

# 获取每个数据点所属的簇标签
labels = kmeans.labels_

# 绘制数据点和簇中心点
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], marker='o', s=200, color='red')
plt.show()

无监督学习——数据降维

PCA(主成分分析)

维数灾难

  1. 维数灾难泛指在处理高维数据时所产生的问题。当数据真的很高维的时候(特征很多的时候),高维空间里的数据互相之间将有着相似的距离。也就是是没有谁和谁更近,谁和谁更远的概念了。距离的概念在高维空间久失效了,这也就意味着,需要更多更多的样本,才能得到永阳的确定性。
  2. 随着特征的数量上升,那么数据的可能性(组合)也随之上升,使用固定百分比训练数据也以几何速度增长。
  3. 随着数据的维度上升,收敛速率会大幅度下降

降维的目的是什么

  1. 保留下最重要的一些特征,去除噪声和不重要的特征,从而提升数据处理速度
  2. 在实际的生产和应用中,降维在定的信息损失范围内,可以为我们节省大量的时间和成本
  3. 优点:
  • 使得数据集更易使用
  • 降低算法的计算开销
  • 去除噪声
  • 使结果更易理解

PCA原理

  1. PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的
  2. 原理
    1. 最小化平方误差(样本点到超平面的垂直距离足够近)
    2. 最大化投影方差(让数据在主轴上投影的方差尽可能大)
  3. 做法:数据中心化之后,对样本数据协方差矩阵进行特征分解,选取前d个最大的特征值对应的特征向量,即可将数据从原来的p维降到d维,也可根据奇异值分解来求解主成分

具体计算步骤

  1. 对数据进行归一化处理
  2. 计算归一化后的数据集的协方差矩阵;
  3. 计算协方差矩阵的特征值和特征向量;
  4. 保留最重要的k个特征(通常k要小于n);
  5. 找出k个特征值相应的特征向量
  6. n的数据集乘以k个n维的特征向量的特征向量(nk),得到最后降维的数据。

PCA的第一、第二主成分分别是什么?怎么确定?

  1. 第一主成分和第二主成分:是通过线性变换从原始数据中提取出来的新的特征向量。这些主成分是按照数据中的方差递减的顺序排列的,因此第一主成分包含最大的方差,第二主成分包含次大的方差
  2. 怎么确定:通过对原始数据的协方差矩阵进行特征值分解。特征值分解将协方差矩阵分解为特征向量和特征值的乘积。特征向量对应于协方差矩阵的主轴方向,而特征值表示在每个主轴方向上的方差大小。
  3. 具体步骤
    1. 投影数据:将原始数据投影到所选的主成分上,得到降维后的数据。
    2. 选择主成分:按照特征值的大小,选取最大的 k 个特征值对应的特征向量作为主成分。通常选择的主成分数取决于希望保留的信息量或者维度的目标。
    3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
    4. 计算协方差矩阵:然后,计算标准化后的数据的协方差矩阵。
    5. 标准化数据:首先,将原始数据标准化,使得每个特征的均值为0,方差为1。

PCA算法的优缺点

优点

  • 降维: PCA可以有效地降低数据的维度,从而减少数据集中的冗余信息和噪声,简化了数据的复杂度。
  • 提取特征: PCA能够发现数据中的主要特征和结构,帮助识别数据中的模式和变化,从而提高了数据的可解释性。
  • 减少计算复杂度: PCA通过特征值分解等数学方法,可以将原始数据转换为主成分,减少了数据处理和计算的复杂度。
  • 降低过拟合风险: 降低数据的维度可以减少模型的复杂度,从而降低了过拟合的风险,提高了模型的泛化能力。
  • 去相关性: PCA通过将原始特征进行线性组合,可以减少特征之间的相关性,有助于消除多重共线性问题。

缺点

  • 信息损失: 降维可能会导致信息的损失,特别是当选择较低的维度时,可能无法保留原始数据的所有信息。
  • 线性限制: PCA是一种线性降维方法,只能发现数据中的线性关系,对于非线性关系的数据降维效果可能不佳。
  • 变量分布:PCA假设变量服从高斯分布,当变量不服从高斯分布(如均匀分布)时,会发生尺度缩放与旋转。
  • 可解释性差: PCA得到的主成分通常是原始特征的线性组合,这些主成分可能不易解释,降低了模型的可解释性。

PCA算法使用场景

    1. 非监督式的数据集:它是一种非监督式的降维方法,因此适用于不带有标签的数据集,对于带有标签的可以采用LDA
    2. 根据方差自主控制特征数量:最大的主成分的数量会小于或等于特征的数量,即,PCA可以输出全部的特征,具体取决于选择特征中解释的方差比例。
    3. 更少的正则化处理:选择较多的主成分将导致更少的平滑,因为能保留很多特征,减少正则化。
    4. 数据量较大的数据集:数据量大指数据记录多和维度多两种情况,PCA对大型数据集的处理效率高。
    5. 数据分布是位于相同平面上,数据中存在线性结构

总结

本文介绍无监督学习的两种最经典,也是最基础的方法:聚类(K-means)和数据降维(PCA)。这也是实际业务中用的最多的两种算法,值得深入研究。在数据分析面试和保研考研面试等环节均可能出现。

内容很长,创作不易,如果对你有帮助的话,还请三连支持~

文中部分内容来自GPT4.0创作,它已经成为了我日常工作中必不可少的生产力工具!但我了解到部分朋友还不清楚怎么开通和升级正版GPT,给大家分享一个我和周围同事都在用的GPT升级方法,参见下方博客:

GPT4.0升级使用教程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小井正在努力中

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值