Stanford 机器学习（吴恩达）课程小笔记

最新推荐文章于 2019-03-11 21:02:29 发布

木杉Vincent

最新推荐文章于 2019-03-11 21:02:29 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/neverever01/article/details/85326010

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

机器学习的定义

“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”

程序根据任务T和性能度量P对经验E进行学习，它在以P衡量的任务T中，性能会随着E增加。

机器学习的分类

监督学习和非监督学习（supervise learning & unsupervise learning）

监督学习是给定了正确答案的机器学习，又分类为回归(regression)和分类(classification)两种类型
非监督学习没有给定结果和标签，非监督学习不会对预测结果产生反馈，分为聚类(cluster)和非聚类(non-cluster)两种。

表示

vector表示向量，通常都是列向量，n×1的矩阵，如
$x=\begin{bmatrix} x_1\\ x_2\\ \vdots \\ x_n \end{bmatrix}$

数据缩放(scaling)

在使用梯度下降算法时需要使用数据缩放，在使用解方程的方法解决线性回归问题的时候不需要使用数据缩放
其实是一种正则化，使得每个特征的取值范围不至于相差过大。
$\hat{x}=\frac{x-\mu}{s}$
其中， $\mu$ 是平均值， $s$ 是最大值-最小值

梯度下降中学习率 $\alpha$ 的选取

通过绘画迭代次数-误差函数图来确定梯度下降算法是否出现问题

正常情况下，将会越来越小

如果学习率过大，算法通常不收敛，甚至误差会越来越大

或者
如果学习率过小，则收敛速度非常慢

线性回归拓展为多项式回归

线性回归的常规形式是 $y=\theta_0 x_0+\theta_1x_1+\dots+\theta_n x_n$ ，这其中的 $x_n$ 可以换成其他变量的非线性组合,比如 $x=x^1 \cdot x^2,x=\sqrt{x^1\cdot x^2},x=x^2$ 等等。但是要记得对变量进行scaling，方法仍然是 $\hat{x}=\frac{x-\mu}{s}$

参数优化的算法

除了最常见的梯度下降（gradient descend）之外，还有不少好的算法：

Conjugate gradient 共轭梯度
BFGS 被认为是数值效果最好的拟牛顿法，并且具有全局收敛性和超线性收敛速度。
L-BFGS 也就是Limited-memory BFGS

(这几种优化算法的数学推导和实现较为困难，但是不需要详细了解也不妨碍使用，用就行了不需要自己去实现)

将二分类拓展为多分类：One vs. All

这种方法的基本思想是：先将某一类作为正例，剩下的类别统统作为反例，这样就得到一个二分类的情景，以此训练一个分类器；然后将另一个类作为正例，剩下的都作为反例，以此类推，一共要训练m个分类器(m为所有的类别数)
一共有m=3个分类：

分别将class1、class2、class3作为正例，剩下的作为反例，训练3个分类器

使用时，将测试样本分别输入3个分类器，选取使得分类器结果为正例的概率最大的分类结果为该测试样本的分类。

过拟合问题

underfit 欠拟合，也称为high bias
overfit 过拟合，也称为high variance

过拟合：对训练集拟合的非常好，但是对新数据的预测不好，无法泛化到新的数据集中。

过拟合的可能原因：

特征太多而训练数据太少
拟合函数（hypothesis）过于复杂

解决办法：

减少特征
更换模型算法
正则化(regularization) 保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)）

梯度量化

梯度是一个关于权重 $\theta$ 的函数，我们在进行梯度下降的时候，希望能知道梯度是否真的在下降，之前我们采用可视化代价函数值的方式，但是代价函数值在下降并不意味着梯度真的在下降，因此有必要将梯度可视化。

采用近似的方法：

$\frac{d}{d\theta}J(\theta)\approx \frac{J(\theta+\epsilon)-J(\theta - \epsilon)}{2\epsilon}$
通常 $\epsilon$ 取 $10^{-2} - 10^{-4}$ 量级的数。

网络结构的选取

输入层的节点数是训练数据的特征数
输出层的节点是是分类的类别数
隐藏层通常都是一层，也可以选取多层，每层具有同样数量的节点，一般来说，层数越多，性能越好，但是计算花销就更大。

确定模型之后的优化策略

更多的训练数据
增加/减少特征数量
增加多项式特征( $x^2,x_1x_2,\dots$ )
增大/减小正则化项参数

训练集与测试集

一般来说，训练集：测试集=7:3

最好先进行随机排序,保持训练集的数据与测试集的数据相差不至于太大
另一种划分方法：

训练集：验证集：测试集=6:2:2

为什么要加入验证集：假如我们有多个模型，需要选择一个，我们在训练集训练之后如果直接用测试集来测，那么其实这之中多了一个参数：模型的不同。别忘了我们的测试集是为了检测最终模型的泛化误差的，不应该让模型见过多余的知识(其他参数)。所以我们要引入验证集，用来选择其中最合适的模型/参数集。通常，验证集的误差要比测试集的误差要小(因为验证集多了一个参数：模型的不同)