机器学习吴恩达课程总结(四)

zqwlearning

已于 2022-04-15 14:52:42 修改

阅读量4k

点赞数

分类专栏：机器学习文章标签：机器学习 python

于 2022-04-14 17:10:54 首次发布

本文链接：https://blog.csdn.net/Ws_zqw/article/details/124176429

版权

机器学习专栏收录该内容

6 篇文章 3 订阅

订阅专栏

文章目录

12. 第十二章支持向量机（Support Vector Machines，SVM）

12.1 优化目标（optimization objective）

逻辑回归的另一种观点

${h_\theta }(x) = {1 \over {1 + {e^{ - {\theta ^T}x}}}}$
- 如 $y = 1$ ，我们想要 ${h_\theta }(x) \approx 1$ ，即 ${e^{ - {\theta ^T}x}} \gg 0$
- 如 $y = 0$ ，我们想要 ${h_\theta }(x) \approx 0$ ，即 ${e^{ - {\theta ^T}x}} \ll 0$
$\cos t({h_\theta }(x),y) = - ({\rm{y}}\log ({h_\theta }(x)) + (1 - {\rm{y}})\log (1 - {h_\theta }(x))) = - y\log ({1 \over {1 + {e^{ - {\theta ^T}x}}}}) - (1 - y)\log (1 - {1 \over {1 + {e^{ - {\theta ^T}x}}}})$

使用 $cos {t_1}(z),\cos {t_0}(z)$ 分别替代 $\log ({1 \over {1 + {e^{ - {\theta ^T}x}}}}), - \log (1 - {1 \over {1 + {e^{ - {\theta ^T}x}}}})$
SVM

$\mathop {\min }\limits_\theta C\sum\limits_{i = 1}^m {[{y^{(i)}}\cos {t_1}({\theta ^T}{x^{(i)}}) + (1 - {y^{(i)}})\cos {t_0}({\theta ^T}{x^{(i)}})]} + {1 \over 2}\sum\limits_{j = 1}^n {{\theta _j}^2}$ ， $C$ 为常数

SVM假设不输出概率，进行直接的预测：
在这里插入图片描述

12.2 大间隔直观理解（Large Margin Intuition）

如 $y = 1$ ，我们想要 ${\theta ^T}x \ge 1$ ，而不再仅仅是 $\ge 0$
如 $y = 0$ ，我们想要 ${\theta ^T}x \ge -1$ ，而不再仅仅是 $\le 0$

SVM决策边界（SVM Decision Boundary）：线性可分离的情况，支持向量机的间隔， $\mathop {\min }\limits_\theta C0 + {1 \over 2}\sum\limits_{j = 1}^n {{\theta _j}^2}$

$C$ 非常大时，想要将每个训练集中的样本都分类正确，对噪声敏感
$C$ 不是特别大时，允许部分样本分类错误，对噪声不敏感，甚至线性不可分离的情况，SVM也能做的很好。
$C$ 相当于 $\over \lambda }$

12.3 大间隔分类器的数学原理

约定：
在这里插入图片描述
$\parallel u\parallel = length{\kern 1pt} {\kern 1pt} of{\kern 1pt} {\kern 1pt} vector{\kern 1pt} {\kern 1pt} u = \sqrt {u_1^2 + u_2^2} \in R$

$P$ 等于 $v$ 在 $u$ 上的映射， ${u^T}v = P \bullet \parallel u\parallel = {u_1}{v_1} + {u_2}{v_2} \in R$ 。

决策边界： $\mathop {\min }\limits_\theta {1 \over 2}\sum\limits_{j = 1}^n {{\theta _j}^2}$ ， $C$ 非常大时。

简化分析： ${\theta _0} = 0,n = 2$

$\over 2}\sum\limits_{j = 1}^n {{\theta _j}^2 = } {1 \over 2}(\theta _1^2 + \theta _2^2) = {1 \over 2}{(\sqrt {\theta _1^2 + \theta _2^2} )^2} = {1 \over 2}\parallel \theta {\parallel ^2}$

${\theta ^T}{x^{(i)}} = {P^{(i)}} + \parallel \theta \parallel = {\theta _1}x_1^{(i)} + {\theta _2}x_2^{(i)}$

12.4 核函数1（Kernels）

非线性决策边界：

当 ${\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + {\theta _3}{x_1}{x_2} + {\theta _4}{x_1}^2 + {\theta _5}{x_2}^2 + ... \ge 0$ ，预测 $y = 1$ 。

定义新特性： ${f_1} = {x_1},{f_2} = {x_2},{f_3} = {x_1}{x_2},...$ ，是否有更好的方法呢？

给定 $x$ ，计算新的特征取决于在与地标（ ${l^{(1)}},{l^{(2)}},{l^{(3)}}$ ）的接近程度。

${f_1} = similarity(x,{l^{(1)}}) = \exp ( - {{\parallel x - {l^{(1)}}{\parallel ^2}} \over {2{\sigma ^2}}})$ ，衡量 $x,{l^{(1)}}$ 的相似度。

核函数标记为： $\kappa (x,{l^{(i)}})$

12.5 核函数2

如何得到 ${l^{(1)}},{l^{(2)}},{l^{(3)}},...$ ？

带核函数的SVM：

训练集： ${ ({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\}$
选择 ${l^{(1)}} = {x^{(1)}},{l^{(2)}} = {x^{(2)}},...,{l^{(m)}} = {x^{(m)}}$
计算 $f$ ： ${f_1} = similarity(x,{l^{(1)}})$ ,…, ${f_m} = similarity(x,{l^{(m)}})$ ， $f$ 作为训练时用的特征
$\mathop {\min }\limits_\theta C\sum\limits_{i = 1}^m {[{y^{(i)}}\cos {t_1}({\theta ^T}{f^{(i)}}) + (1 - {y^{(i)}})\cos {t_0}({\theta ^T}{f^{(i)}})]} + {1 \over 2}\sum\limits_{j = 1}^n {{\theta _j}^2}$

为什么不将核函数的技巧应用于逻辑回归，因为当结合逻辑回归会变得很慢，一些优化是针对核函数和SVM的。

SVM参数：

$\over \lambda })$ ：
- 大 $C$ ：低偏差，高方差——过拟合
- 小 $C$ ：高偏差，低方差——欠拟合
${{\sigma ^2}}$ ：
- 大 ${{\sigma ^2}}$ ：特征 $f$ 非常平滑。高偏差，低方差——欠拟合
- 小 ${{\sigma ^2}}$ ：特征 $f$ 非常不平滑。高偏差，低偏差，高方差——过拟合

12.6 使用SVM

使用SVM软件包解决参数 $\theta$ 计算问题。

注意两点：

参数 $C$ 的选择
核函数的选择

无核函数（线性核函数），得到一个线性分类器。当 $n$ 很大， $m$ 很小时可行。但是，在一个非常高维的特征空间中，尝试拟合非常复杂的函数，如果训练集很小的话，可能过拟合。
高斯核函数（Gaussian kernel）：

${f_i} = \exp ( - {{\parallel x - {l^{(1)}}{\parallel ^2}} \over {2{\sigma ^2}}})$

需要选择 ${{\sigma ^2}}$

当 $n$ 很小， $m$ 很大时可以拟合非线性。

核函数注意：如果原特征取值范围相差很大，可能 $f$ 很大程度上只由一些特征决定了。

其他的核函数：String kernel，chiIsquare’kernel, histogram intersec2on’kernel,…

注意：不是所有的相似性函数 $s i m i l a r i t y (x, l)$ 都是有效的内核。(需要满足名为 "默瑟定理 "的技术条件，以确保SVM包的优化正确运行，并且不发生分歧）。

多分类：

许多SVM学习包内置了多分类方法，使用一对多进行多分类。

逻辑回归 VS SVM：

$n$ 表示特征数量， $m$ 表示训练样本数量

如果 $n$ 相对 $m$ 很大（如： $\sim 1000$ ），使用逻辑回归或者线性核函数的SVM
如果 $n$ 较小 $m$ 中等（如： $\sim 1000,m = 10 \sim 10000$ ），使用高斯核函数SVM
如果 $n$ 较小 $m$ 很大（如： $\sim 1000,m = 50000 +$ ），使用逻辑回归或者线性核函数的SVM

神经网络可能在大多数情况下表现良好，但是训练可能较慢。

13. 聚类（Clustering）

13.1 无监督学习（Unsupervised Learning Introduction）

训练集： ${ {x^{(1)}},{x^{(2)}},...,{x^{(m)}}\}$

聚类算法应用：市场分割；社交网络分析；服务器组织；天文数据分析

13.2 K均值聚类算法（k-means algorithm）

K均值聚类算法：

输入：K（聚类数量）；训练集： ${ {x^{(1)}},{x^{(2)}},...,{x^{(m)}}\}$ ， ${x^{(i)}} \in {R^n}$ 默认 $x_0^{} = 1$
随机初始化K个类中心 ${u_1},{u_2},...,{u_k} \in {R^n}$
簇分配（cluster assignment step）：将每个点赋予离其最近的类中心点。（新聚类）
更新簇中心（move centroid）：计算每类数据点的均值作为新的类中心。（新中心）
重复上述步骤直到收敛，即聚类结果不变

13.3 优化目标（Optimization objective）

${c^{(i)}}$ 表示 ${x^{(i)}}$ 当前被分配给哪个类别； ${u_k}$ 表示类中心k； ${u_{{c^{(i)}}}}$ 表示 ${x^{(i)}}$ 当前被被分配给哪个类中心。

优化目标： $J({c^{(1)}},...,{c^{(m)}},...,{u_1},...,{u_K}) = {1 \over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}} - {u_{{c^{(i)}}}}{\parallel ^2}}$

$\mathop {\min }\limits_{{c^{(1)}},...,{c^{(m)}},...,{u_1},...,{u_K}} J({c^{(1)}},...,{c^{(m)}},...,{u_1},...,{u_K})$

可以证明：

第一步：簇分配（新聚类）是在优化 ${c^{(1)}},...,{c^{(m)}}$ ，而保持 ${u_1},...,{u_K}$ 不变
第二步：更新簇中心（新中心）是在优化 ${u_1},...,{u_K}$ ，而保持 ${c^{(1)}},...,{c^{(m)}}$ 不变
k-means其实就是分两步最小化 $J({c^{(1)}},...,{c^{(m)}},...,{u_1},...,{u_K}) = {1 \over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}} - {u_{{c^{(i)}}}}{\parallel ^2}}$ ，然后反复迭代直至收敛

13.4 随机初始化（Random initialization）

满足以下条件：

应该有 $K < m$
随机挑选 $K$ 个训练样本
设置 ${u_1},...,{u_K}$ 等于这 $K$ 个训练样本

由于初始化的不同，K均值聚类算法可能会落在局部最优。为解决局部最优，特别是 $\sim 10$ 时，采用下述方案有较大改善：重复运行50~1000次k-means取最优。

13.5 选取聚类数量（Choosing the number of clusters）

“肘”法（Elbow method）：

可以解决一些问题，但不能应对所有问题。

有时，你正在运行k-means去聚类，为了下一步的工作。这样可以根据在接下来工作的表现，作为选择 $K$ 的准则。

14. 第十四章降维（Dimensionality Reduction）

14.1 目标1：数据压缩

目的：减少空间；算法加速

减少数据量，如：二维到一维，三维到二维

矩阵的维数一般是说向量中值的个数，注意：向量默认是竖向的

14.2 目标2：可视化

常常将高维数据映射为三维或二维进行可视化。

14.3 主成分分析问题规划（Principal Component Analysis，PCA）

问题描述：减少数量n维到k维，即寻找k个基向量 ${u^{(1)}},{u^{(2)}},...,{u^{(k)}}$ 表示所有数据，并且映射错误最小。

PCA不是线性回归。

14.4 主成分分析算法（Principal Component Analysis，PCA）

训练集： ${ {x^{(1)}},{x^{(2)}},...,{x^{(m)}}\}$

数据预处理：包括特征缩放或者均值平均。

计算 ${u_j} = {1 \over m}\sum\limits_{i = 1}^m {x_j^{(i)}}$ ，然后用代 ${{{x_j} - {u_j}} \over {{s_j}}}$ 替 ${x_j^{(i)}}$ 。

如果不同的特征范围不同，特征缩放是十分必要的。k维空间是原n维空间的低维子空间（dimensional sub-space）
计算协方差矩阵（convariance matrix）

$\Sigma = {1 \over m}\sum\limits_{i = 1}^m {({x^{(i)}}){{({x^{(i)}})}^T}}$ ，其中 $\Sigma$ 是 $s i g m a$ 矩阵。
计算奇异值分解（eigenvectors of sigma）

$[u, s, v] = s v d (s i g m a)$ ，其中 $u$ 是我们需要的

$\left[ {\underbrace {{u^{(1)}},{u^{(2)}}}_k,...,{u^{(m)}}} \right] \in {R^{n \times n}}$ ，取 $u$ 的前k个向量即可。
$\in {R^n} \Rightarrow z \in {R^k}$

$KaTeX parse error: Undefined control sequence: \matrix at position 86: …(i)}} = \left[ \̲m̲a̲t̲r̲i̲x̲{ {u^{(1)}} \…$

14.5 主成分数量选择

映射误差平方均值： $\over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}} - x_{approix}^{(i)}{\parallel ^2}}$ ；数据总变化： $\over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}}{\parallel ^2}}$

尝试选择k使得最小化下面的值，即最大化的保留所有差异性：

选择k的方法：

尝试不同的k的取值， $k = 1, 2, . . .$ ，计算 ${z^{(1)}},{z^{(2)}},...,{z^{(m)}},x_{approix}^{(1)},x_{approix}^{(2)},...,x_{approix}^{(m)}$ ，查看是否满足 $\over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}} - x_{approix}^{(i)}{\parallel ^2}} } \over {{1 \over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}}{\parallel ^2}} }} \le 0.01$ 。但是这样计算代价太高，可以利用 $[u, s, v] = s v d (s i g m a)$ 中的 $s$ 计算。

$\over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}} - x_{approix}^{(i)}{\parallel ^2}} } \over {{1 \over m}\sum\limits_{i = 1}^m {\parallel {x^{(i)}}{\parallel ^2}} }} \le 0.01 \Rightarrow 1 - {{\sum\limits_{i = 1}^k {{s_{ii}}} } \over {\sum\limits_{i = 1}^n {{s_{ii}}} }} \le 0.01$ ，k从小到大遍历选择最小满足条件的k。

14.6 压缩重现

${U^T}X \Rightarrow {X_{approix}} = UZ \approx X$

14.6 应用PCA的建议

监督学习加速：

训练集： ${ ({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\}$

对输入进行PCA， $\{ ({x^{(1)}},{y^{(1)}}),({x^{(2)}},{y^{(2)}}),...,({x^{(m)}},{y^{(m)}})\} \Rightarrow \{ ({z^{(1)}},{y^{(1)}}),({z^{(2)}},{y^{(2)}}),...,({z^{(m)}},{y^{(m)}})\}$ 。