机器学习—吴恩达_ 第10周_学习总结

最新推荐文章于 2024-09-10 18:37:45 发布

魔芋小灰菜

最新推荐文章于 2024-09-10 18:37:45 发布

阅读量2.1k

点赞数

分类专栏： # 日记文章标签：机器学习学习聚类

本文链接：https://blog.csdn.net/u014185088/article/details/123487723

版权

日记专栏收录该内容

15 篇文章 1 订阅

订阅专栏

本文深入探讨了无监督学习中的K-均值聚类算法，解释了其迭代过程和代价函数，并介绍了选择聚类数量的方法。此外，还详细阐述了主成分分析（PCA）在数据降维中的应用，以及如何利用PCA进行高维到低维的转换。最后，讨论了高斯分布和异常检测，强调了异常检测与监督学习的区别，并提到了推荐系统的基本概念。

摘要由CSDN通过智能技术生成

机器学习—吴恩达_ 第10周_学习总结

21.11.8-21.11.14

一、无监督学习

6709f5ca3cd2240d4e95dcc3d3e808d5

在原有的监督学习中，无监督学习和监督学习相比监督学习有标签信息，但是无监督学习是没有标签信息的，我们需要使用特有的函数方法使数据集寻找数据中间的内在关系，如将上图分为两个点集（簇）的算法被称为聚类算法。

K-均值算法

算法接收没有标记的数据集，然后将数据聚类成不同的组。
是一个迭代算法，使用该算法的一般步骤为：
1. 确定需要分的类数量n
2. 选择K个随机的点，称为***聚类中心*** cluster centroids
3. 于数据集中的每一个数据，按照距离 $K$ 个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类
4. 计算每一个组的平均值，将该组所关联的中心点移动到平均值的位置。
5. 重复上面步骤，到中心点不在变化

实例：

迭代一次

ff1db77ec2e83b592bbe1c4153586120

迭代3次

acdb3ac44f1fe61ff3b5a77d5a4895a1

迭代10次

fe6dd7acf1a1eddcd09da362ecdf976f

K-均值的代价函数-畸变函数

K-均值最小化问题，是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和，其中 ${{\mu }_{{{c}^{(i)}}}}$ 代表与 ${{x}^{(i)}}$ 最近的聚类中心点，要找使得代价函数最小的 $c^{(1)}$ , $c^{(2)}$ ,…, $c^{(m)}$ 和 $μ^1$ , $μ^2$ ,…, $μ^k$ ：

$J(c^{(1)},...,c^{(m)},μ_1,...,μ_K)=\dfrac {1}{m}\sum^{m}_{i=1}\left\| X^{\left( i\right) }-\mu_{c^{(i)}}\right\| ^{2}$

聚类数量的选择可以通过代价函数和K的图像来选择（拐点处-肘部法则）

f3ddc6d751cab7aba7a6f8f44794e975

聚类的相关资料

1.相似度/距离计算方法总结

(1). 闵可夫斯基距离Minkowski/（其中欧式距离： $p = 2$ )

$dist(X,Y)={{\left( {{\sum\limits_{i=1}^{n}{\left| {{x}_{i}}-{{y}_{i}} \right|}}^{p}} \right)}^{\frac{1}{p}}}$

(2). 杰卡德相似系数(Jaccard)：

$J(A,B)=\frac{\left| A\cap B \right|}{\left|A\cup B \right|}$

(3). 余弦相似度(cosine similarity)：

$n$ 维向量 $x$ 和 $y$ 的夹角记做 $\theta$ ，根据余弦定理，其余弦值为：

$(\theta )=\frac{{{x}^{T}}y}{\left|x \right|\cdot \left| y \right|}=\frac{\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{n}{{{x}_{i}}^{2}}}\sqrt{\sum\limits_{i=1}^{n}{{{y}_{i}}^{2}}}}$
(4). Pearson皮尔逊相关系数：
${{\rho }_{XY}}=\frac{\operatorname{cov}(X,Y)}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{E[(X-{{\mu }_{X}})(Y-{{\mu }_{Y}})]}{{{\sigma }_{X}}{{\sigma }_{Y}}}=\frac{\sum\limits_{i=1}^{n}{(x-{{\mu }_{X}})(y-{{\mu }_{Y}})}}{\sqrt{\sum\limits_{i=1}^{n}{{{(x-{{\mu }_{X}})}^{2}}}}\sqrt{\sum\limits_{i=1}^{n}{{{(y-{{\mu }_{Y}})}^{2}}}}}$

Pearson相关系数即将 $x$ 、 $y$ 坐标向量各自平移到原点后的夹角余弦。

2.聚类的衡量指标

(1). 均一性： $p$

类似于精确率，一个簇中只包含一个类别的样本，则满足均一性。其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)

(2). 完整性： $r$

类似于召回率，同类别样本被归类到相同簇中，则满足完整性;每个聚簇中正确分类的样本数占该类型的总样本数比例的和

(3). V-measure:

均一性和完整性的加权平均

$\frac{(1+\beta^2)*pr}{\beta^2*p+r}$

(4). 轮廓系数

样本 $i$ 的轮廓系数： $s (i)$

簇内不相似度:计算样本 $i$ 到同簇其它样本的平均距离为 $a (i)$ ，应尽可能小。

簇间不相似度:计算样本 $i$ 到其它簇 $C_j$ 的所有样本的平均距离 $b_{ij}$ ，应尽可能大。

轮廓系数： $s (i)$ 值越接近1表示样本 $i$ 聚类越合理，越接近-1，表示样本 $i$ 应该分类到另外的簇中，近似为0，表示样本 $i$ 应该在边界上;所有样本的 $s (i)$ 的均值被成为聚类结果的轮廓系数。

$\frac{b(i)-a(i)}{max\{a(i),b(i)\}}$

(5). ARI

数据集 $S$ 共有 $N$ 个元素，两个聚类结果分别是：

$X=\{{{X}_{1}},{{X}_{2}},...,{{X}_{r}}\},Y=\{{{Y}_{1}},{{Y}_{2}},...,{{Y}_{s}}\}$

$X$ 和 $Y$ 的元素个数为：

$a=\{{{a}_{1}},{{a}_{2}},...,{{a}_{r}}\},b=\{{{b}_{1}},{{b}_{2}},...,{{b}_{s}}\}$

记： ${{n}_{ij}}=\left| {{X}_{i}}\cap {{Y}_{i}} \right|$

$ARI=\frac{\sum\limits_{i,j}{C_{{{n}_{ij}}}^{2}}-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}{\frac{1}{2}\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)+\left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]-\left[ \left( \sum\limits_{i}{C_{{{a}_{i}}}^{2}} \right)\cdot \left( \sum\limits_{i}{C_{{{b}_{i}}}^{2}} \right) \right]/C_{n}^{2}}$

二、数据压缩

将数据从三维降至二维：将三维向量投射到一个二维的平面上，强迫使得所有的数据都在同一个平面上，降至二维的特征向量。

67e2a9d760300d33ac5e12ad2bd5523c

主成分分析(PCA)是最常见的降维算法：

在PCA中，我们要做的是找到一个方向向量（Vector direction），当我们把所有的数据都投射到该向量上时，我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点的向量，而投射误差是从特征向量向该方向向量作垂线的长读。将 $n$ 维数据降至 $k$ 维，目标是找到向量 $u^{(1)}$ , $u^{(2)}$ ,…, $u^{(k)}$ 使得总的投射误差最小

7e1389918ab9358d1432d20ed20f8142

主成分分析与线性回归是两种不同的算法。主成分分析最小化的是投射误差（Projected Error），而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果，而主成分分析不作任何预测。上图中，左边的是线性回归的误差（垂直于横轴投影），右边则是主要成分分析的误差（垂直于红线投影）。

PCA 减少 $n$ 维到 $k$ 维算法：

第一步是均值归一化。我们需要计算出所有特征的均值，然后令 $x_j= x_j-μ_j$ 如果特征是在不同的数量级上，我们还需要将其除以标准差 $σ^2$ 。

第二步是计算协方差矩阵（covariance matrix） $Σ$ ：
$\sum=\dfrac {1}{m}\sum^{n}_{i=1}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T}$ ， $Sigma=\dfrac {1}{m}\sum^{n}_{i=1}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T}$

第三步是计算协方差矩阵 $Σ$ 的特征向量（eigenvectors）:

0918b38594709705723ed34bb74928ba

对于一个 $n \times n$ 维度的矩阵，上式中的 $U$ 是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从 $n$ 维降至 $k$ 维，我们只需要从 $U$ 中选取前 $k$ 个向量，获得一个 $n \times k$ 维度的矩阵，我们用 $U_{reduce}$ 表示，然后通过如下计算获得要求的新特征向量 $z^{(i)}$ : $z^{(i)}=U^{T}_{reduce}*x^{(i)}$ ，其中 $x$ 是 $n \times 1$ 维的，因此结果为 $k \times 1$ 维度。

低维向高维： $x$ 为2维， $z$ 为1维， $z=U^{T}_{reduce}x$ ，相反的方程为： $x_{appox}=U_{reduce}\cdot z$ , $x_{appox}\approx x$ 。

01e1c4a2f29a626b5980a27fc7d6a693

高斯分布&&异常检测

高斯分布，也称为正态分布，例如变量 $x$ 符合高斯分布 $\sim N(\mu, \sigma^2)$ 则其概率密度函数为：

$p(x,\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
$μ$ 和 $σ^2$ 的计算方法如下：对阴影部分积分值为1
$\mu=\frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}$ $\sigma^2=\frac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}-\mu)^2$

fcb35433507a56631dde2b4e543743ee

异常检测算法：对于给定的数据集 $x^{(1)},x^{(2)},...,x^{(m)}$ ，我们要针对每一个特征计算 $\mu$ 和 $\sigma^2$ 的估计值：

$\mu_j=\frac{1}{m}\sum\limits_{i=1}^{m}x_j^{(i)}$ $\sigma_j^2=\frac{1}{m}\sum\limits_{i=1}^m(x_j^{(i)}-\mu_j)^2$

获得了平均值和方差的估计值，给定新的一个训练实例，根据模型计算 $p (x)$

$p(x)=\prod\limits_{j=1}^np(x_j;\mu_j,\sigma_j^2)=\prod\limits_{j=1}^1\frac{1}{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2})$

当 $\varepsilon$ 时，为异常。

异常检测VS监督学习

异常检测	监督学习
非常少量的正向类（异常数据 $y = 1$ ）, 大量的负向类（ $y = 0$ ）	同时有大量的正向类和负向类
许多不同种类的异常，非常难。根据非常少量的正向类数据来训练算法。	有足够多的正向类实例，足够用于训练算法，未来遇到的正向类实例可能与训练集中的非常近似。
未来遇到的异常可能与已掌握的异常、非常的不同。
例如：欺诈行为检测生产（例如飞机引擎）检测数据中心的计算机运行状况	例如：邮件过滤器天气预报肿瘤分类

三、推荐系统(Recommender Systems)

根据用户数据预测：当已经有了数据的时候，我们可以通过对用户原有的数据进行预测出这个用户的趋向，如用户1给爱情片的分数很高，但是给动作片的分很低，我们可以推算出用户更多喜欢爱情片，于是可以将爱情片的类型推荐给用户。

基于内容的推荐系统：通过所有用户给这个电影的评价打分，得出这个电影的特征，如有两个特征：爱情片： $x_1=0.8$ ；动作片： $x_2=0.2$ ；我们知道电影的数据后，我们可以针对用户的喜好将该电影进行推送。

总之不管是通过对用户还是电影分析，我们都能得出一些特征。但是既没有用户的参数，也没有电影的特征，这两种方法都不可行了

协同过滤Collaborative filtering, CF

CF有两种基本方法：基于用户的协同过滤和基于项目的协同过滤。 步骤：

了解数据库中有多少用户/项目与给定的用户/项目相似。
考虑到与它类似的用户/项目的总权重，评估其他用户/项目，来预测你会给该产品用户的打分。

在协同过滤从算法中，我们通常不使用方差项，如果需要的话，算法会自动学得。
协同过滤算法使用步骤如下：

初始 $x^{(1)},x^{(1)},...x^{(nm)},\ \theta^{(1)},\theta^{(2)},...,\theta^{(n_u)}$ 为一些随机小值
使用梯度下降算法最小化代价函数
在训练完算法后，我们预测 $(\theta^{(j)})^Tx^{(i)}$ 为用户 $j$ 给电影 $i$ 的评分