【cs229】吴恩达MachineLearning-2/2

最新推荐文章于 2023-05-21 18:11:46 发布

BesiseB

最新推荐文章于 2023-05-21 18:11:46 发布

阅读量257

点赞数

分类专栏： coursera

本文链接：https://blog.csdn.net/b10030607/article/details/112817759

版权

coursera 专栏收录该内容

8 篇文章 2 订阅

订阅专栏

本系列相关链接：
【cs229】吴恩达MachineLearning-1/2

4. Neural Networks

4.1 Why not linear

线性模型的缺点是，特征量太大且冗余，计算困难；
无法模拟异或门；
在这里插入图片描述

4.2 What about brain

神经重接实验证明，大脑皮层其实是通用的，不是专用的。换句话说，如果连上声音信号的采集器，这块区域就是一个声音处理器；如果连上视频信号，这块区域就是一个视频处理器，原来大脑是万能的。

如果我们能找出大脑的学习算法，然后在计算机上执行大脑学习算法或与之相似的算法，也许这将是我们向人工智能迈进做出的最好的尝试。人工智能的梦想就是有一天能制造出真正的智能机器。
（https://zhuanlan.zhihu.com/p/199833762）

4.3 Terminology in NN

$\theta\hArr$ weights, parameters
${a_i}^l=g({z_i}^l)\hArr$ activation of unit $i$ in layer $l$
$s_l\hArr$ the number of units in layer $l$ , not counting bias unit
$L\hArr$ total number of layers
$\Theta^l\hArr$ matrix of weights controlling function mapping from layer $l$ to layer $l + 1$ , shape is $s_{l+1}\times(s_l+1)$
${\Theta_{k,t}}^l\hArr$ weight controlling function mapping from layer $l$ input $t$ -th unit to layer $l + 1$ output $k$ -th unit.
${\delta_j}^l\hArr$ “error” of node $j$ in layer $l$ .

4.4 Backpropagation Algorithm

导数的计算还是没明白，先跳过，务必看完补上
$\begin{aligned} g(z)&=\frac{1}{1+e^{-z}}\\ g(z)^{-1}&=g(z)(1-g(z))\\ \delta^L&=a^L-y\\ \delta^l&=(\Theta^l)^T\delta^{l+1}.*\frac{\partial}{\partial\Theta^l}a^l\\ &=(\Theta^l)^T\delta^{l+1}.*a^l.*(1-a^l)\\ J(\Theta)&=-\frac{1}{m}[\sum_{i=1}^{m}\sum_{k=1}^{K}{y_k}^ilogh_\theta(x^i)_k+(1-{y_k}^i)log(1-h_\theta(x^i)_k)]\\ &+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}({\Theta_{ij}}^l)^2\\ \Delta^l:&=\Delta^l+\delta^{l+1}({a^l})^T\lArr(初始化时{\Delta_{ij}}^l全0,K次累加)\\ {D_{ij}}^l&=\frac{\partial}{\partial{\Theta_{ij}}^l}J(\Theta)=\frac{1}{m}{\Delta_{ij}}^l+\frac{\lambda}{m}{\Theta_{ij}}^l\\ &\approx\frac{J({\Theta_{ij}}^l+\epsilon)-J({\Theta_{ij}}^l-\epsilon)}{2\epsilon}\lArr(Gradient Checking) \end{aligned}$

打破对称 Symmetry breaking
如果 $\Theta$ 初始化为相同值，则：
同一layer的所有 ${a_i}^l$ 都相同，所以同一layer的所有 ${\delta_i}^l$ 都相同，则：
同一layer连接下一层同一个node的所有 $\frac{\partial}{\partial{\Theta_{ij}}^l}J(\Theta)$ 都相同（ $i$ 、 $l$ 固定），则：
每次迭代后 ${\Theta_{ij}}^l$ 都相同（ $i$ 、 $l$ 固定），那就永远相同下去，就冗余了。

5. Machine Learning System Design

如何评估ML系统是否work?

数据集切分为训练集+测试集；
model selection problem: 切分为训练集+验证集+测试集；
（三份数据，一份用来训练，一份用于选择模型，一份用于在最终的模型上做测试）；
underfit = high bias， overfit = high variance
underfit时，增加样本量不能解决问题；
error analysis, 分析交叉验证集中的哪些样本被错误分类（臭名昭著的特征工程）
Precision/Recall （需要权衡）
Skewed Data 倾斜数据样本不均衡
$Precision\hArr$ 预测的患癌症的人，有多少是真正的癌症患者；
$Recall\hArr$ 真正的癌症患者，有多少被我们识别出来；
$F_1score=2\frac{PR}{P+R}$ 验证集上计算 $F_1score$ ，选定threshold，然后预测测试集；

6. SVM

6.1 Large Margin

$\begin{aligned} logistic~regression&:\\ J(\theta)&=-\frac{1}{m}\sum_{i=1}^{m}y^ilogh_\theta(x^i)+(1-y^i)log(1-h_\theta(x^i)+\frac{\lambda}{2m}\sum_{j=1}^{n}{\theta_j}^2\\ &=\frac{1}{m}\sum_{i=1}^{m}-y^ilogh_\theta(x^i)-(1-y^i)log(1-h_\theta(x^i)+\frac{\lambda}{2m}\sum_{j=1}^{n}{\theta_j}^2\\ y&=1时，期望\theta^TX\geq0; y=0时，期望\theta^TX<0\\ &\Downarrow(C=\frac{1}{\lambda})\\ SVM&:\\ J(\theta)&=C\sum_{i=1}^{m}y^icost_1(\theta^Tx^i)+(1-y^i)cost_0(\theta^Tx^i)+\frac{1}{2}\sum_{j=1}^{n}{\theta_j}^2\\ y&=1时，期望\theta^TX\geq1; y=0时，期望\theta^TX\leq-1\\ &\Downarrow 等效于\\ y&=1时，期望P\Vert\theta\Vert\geq1; y=0时，期望P\Vert\theta\Vert\leq-1\\ (C&很大时，上述第一项逼近0) \end{aligned}$
在这里插入图片描述
还记得正则化的用处吗？防止少数用例对模型整体影响太大。SVM中 $C$ 的作用也是如此，如果C非常大，相当于 $\lambda$ 非常小，则正则化效果不明显，或者说受少数用例影响大。因此SVM算法中 $C$ 得是个合适的大值。

在这里插入图片描述
$\begin{aligned} tan\alpha&=\frac{u_2}{u_1}\\ tan(\alpha+\theta)&=\frac{v_2}{v_1}=\frac{tan\alpha+tan\theta}{1-tan\alpha tan\theta}\\ &\Downarrow两式可得:\\ tan\theta&=\frac{u_1v_2-u_2v_1}{u_1v_1+u_2v_2}\\ &\Downarrow又有：\\ tan^2\theta+1&=sec^2\theta\\ sec\theta&=\frac{\Vert V\Vert}{P}=\frac{\sqrt{v_1^2+v_2^2}}{P}\\ &\Downarrow综上可得：\\ P&=\frac{u_1v_1+u_2v_2}{\sqrt{(u_1^2+u_2^2)(v_1^2+v_2^2)}}\\ &\Downarrow也即：\\ U^TV&=P\cdot\Vert U\Vert=V^TU \end{aligned}$

6.2 Landmarks and Kernels

选择标记点，选择合适的核函数，设计新特征
$\begin{aligned} feature_x&=similarity(sample, landmark_x)\\ &=kernel_k(sample, landmark_x) \end{aligned}$
标记点的选择：可以选所有正样本（or 所有样本？<–所有样本，并不适用 $y^i$ ，正负样本的概念用0\1的输出表示了）
核函数设计特征的方法，为什么没有用于逻辑回归？计算量大，无法迁移使用针对SVM的高级优化（？）。

常见的核函数有：

线性核
高斯核 $gaussin(x,y)=exp(-\frac{\Vert x-y \vert^2}{2\sigma^2})$ （别忘记用feature scale）
多项式核，例如 ${(X^TY)}^2$ 、 ${(X^TY+4)}^3$ 等

7.Unsupervised Learning

7.1 K-means

算法核心：

可视化数据，手动选择K值
初始化K个中心
遍历所有数据看每个数据最靠近哪个中心
根据所附着的样本的均值移动中心
重复3-4，直到损失 $J$ 最小( $J$ 指所有样本离自己所在中心的距离的和)
重复2-5，多次随机初始化后，取损失最小的
(因为不同的初始化位置，可能导致聚类并不是最优的，例如将两类合为一类，又将一类分成两类)
重复1-6，多个K值后，选择拐点Elbow的K值，K太小误差大，K太大没意义

注意，K-means也能用于无明显界限的数据聚类，例如将衣服尺寸根据体重身高强行分成S\M\L三个档次。

7.2 Data Compression and PCA

数据压缩/降维的好处：减小计算量，降低内存
Principal Component Analysis
在这里插入图片描述
PCA跟线性回归完全不同，线性回归试图找到一条线将所有样本基本贯穿，误差是红线上的预测值和样本标签/纵坐标的距离；PCA试图找到一条线能基本投影所有样本，误差是样本点到红线的投影高度。

PCA算法核心：

预处理数据 $X维度m\times n$ ，减均值除范围
构造协方差矩阵 $Sigma=X^TX维度n\times n$
奇异值分解： $[U, S, V] = s v d (S i g m a)$
取 $U$ 的前K个列向量，作为主成分 $U_{reduce}$
$z={U_{reduce}}^Tx，x 维度n\times1, U_{reduce}维度n\times k$
如果想将数据恢复成高维， $x_{approx}=U_{reduce}z$
PCA无法解决过拟合

选择合适的K，例如保留99%的方差：
$\frac{\sum_{i=1}^{m}{\Vert x^i-{x_{approx}}^i\Vert}^2}{\sum_{i=1}^{m}{\Vert x^i\Vert}^2}\leq0.01$
另一个等效的、更快的方法是，根据svd返回的对角线矩阵 $S$ ，其只有对角线非零并按照顺序表示特征的重要性依次递减。

8. Anomaly Detection

8.1 Gaussian/Normal Distribution

$X\thicksim~ \Nu(\mu,\sigma^2)$
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
$\sigma^2=\frac{1}{m}\sum_{i=1}^{m}(x_i-\mu)^2$ ，数学上的标准差的定义是m-1，但是ML常用的是m，好计算，且m很大时两者没有理论上的区别。
在这里插入图片描述

8.2 vs. supervised learning

异常检测的数据中，异常样本（正样本）远远少于正常样本；异常检测中，异常样本之间互不相同、无法“以此类推”。
原始数据不符合高斯分布怎么办？虽然能work，但是不能很好拟合，所以最好先进行转换（例如sqrt、n次幂、log…）使得预处理的数据基本符合高斯分布。

8.3 Multivariate Gaussian Distribution

多个单维高斯分布= $\Sigma$ 只有对角线非零的多参高斯分布。

9.Recommender Systems

9.1 Content Based Recommendations

已知每部电影的特征值 $x$ ，根据每个用户已经看过的电影的评分，学习参数 $\theta$ ，最后预测该用户对一个没看过的电影的评分 ${\theta_{user}}^Tx_{movie}$ 。

9.2 Collaborative Filtering

已知每个用户的评分标准 $\theta$ ，根据每个用户已经看过的电影的评分，学习电影的特征值 $x$ ，最后预测用户对该没看过的电影的评分 ${\theta_{user}}^Tx_{movie}$ 。

不断根据 $\theta$ 、 $x$ 互相推导、迭代更新，则可以不错的进行推荐。
$\begin{aligned} _{\theta^1,...,\theta^{n_u}}^{~~~min}\frac{1}{2}\sum_{j=1}^{n_u}\sum_{i:r(i,j)=1}((\theta^j)^Tx^i-y^{i,j})^2&+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}({\theta_k}^j)^2\\ _{x^1,...,x^{n_m}}^{~~~min}\frac{1}{2}\sum_{i=1}^{n_m}\sum_{j:r(i,j)=1}((\theta^j)^Tx^i-y^{i,j})^2&+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}({x_k}^j)^2\\ &\dArr\\ J(x^1,...,x^{n_m},\theta^1,...,\theta^{n_u})=\frac{1}{2}\sum_{(i,j):r(i,j)=1}((\theta^j)^Tx^i-y^{i,j})^2&+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}({\theta_k}^j)^2+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}({x_k}^j)^2\\ \end{aligned}$
统一公式如上，实际上可以用偏导同时更新 $\theta$ 和 $x$ ;

向量化公式为： $X\Theta^T=Y，其中Y是n_m\times n_u的打分矩阵$ ；

面对新用户A，上面的 $J ()$ 的第一项不存在， $\frac{\partial}{\partial\theta^A}J()$ 也就只有第二项跟 $\theta$ 有关，最小化 $J ()$ 会导致 $\theta_A$ 全0，那怎么推荐？
Mean Normalization的做法就是根据所有用户的观看评分计算每部电影的平均得分，作为新用户的预测得分，也就是 $(\theta^j)^Tx^i+\mu_i$ ;
类似的，面对新电影，也可以使用Mean Normalization方法。