Coursera上Andrew Ng机器学习课程总结（一）

最新推荐文章于 2021-06-06 01:05:37 发布

Crawler_Star

最新推荐文章于 2021-06-06 01:05:37 发布

阅读量4.9k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Crawler_Star/article/details/44756221

版权

利用大约一个月的时间把coursera公开课Andrew Ng讲授的机器学习课程看完了，并且把8个编程联系也实现了，写篇总结来归纳下知识点。客观的来说，这门公开课很偏工程，老师对于数学知识能省则省，对于那些想初窥机器学习的同学，倒是很推荐看下。

机器学习按照训练集有无标签分为监督学习和无监督学习。监督学习，我们经常用它处理回归问题、分类问题，而课程里介绍的有：线性回归模型、logistics回归模型、神经网络及SVM模型；无监督学习，主要处理聚类的问题，课程里主要介绍的是K-means模型。

线性回归

线性回归问题，简单来说就是给出训练集，用线性函数来拟合这些数据，最后这个线性函数来计算给定自变量对应的因变量的值。

我们的假设函数是 $h_\theta(x) ={\theta^T}x={\theta_0}+{\theta_1}{x_1}$
为了使我们的假设函数能够更好的拟合训练集的数据，我们使用最小二乘法来定义代价函数

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 [1]

$J(\theta) = \frac{1}{2m}\sum_{i=1}^m{(h_\theta(x^{(i)}) - y^{(i)})}^2 [1]$
那么下面我们就需要极小化公式[1]
这里我们采用的方法即是梯度下降法（又叫做批量梯度法），给定一个学习速率或者说是步长

α $\alpha$ ,不断更新

θ $\theta$ ，具体公式如下：

θ j : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j [2]

$\theta_j := \theta_j - \alpha\frac1m\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} [2]$

为了能够使梯度下降法每次迭代，代价函数都能够减少，我们往往会画图来观察代价函数值是否每次都在减少。我们上面说的 $\alpha$ ,当我们设定这个值比较小的时候，梯度下降很慢才收敛，但是这个值很大，那么很可能我们的代价函数反而是增加的。

之所以要进行特征向量的标准化，是因为各个特征变量的值往往差距比较大，在进行梯度下降法的时候，速度慢。一般而言，我们标准化是特征值减去特征向量的均值最后在除以特征向量的标准差。

在梯度下降时，每个 $\theta$ 的分量要同步更新，即在一次迭代过程中，不能更新完了 $\theta_1$ ,再用新的 $\theta_1$ 更新 $\theta_2$ 。

梯度下降法，有时候需要做特征向量的标准化，是不是感觉有些麻烦，那么下面介绍的方法就不需要做这样的数据预处理工作了，它就是标准公式法：

θ = (X T X) - 1 X T y

$\theta = (X^TX)^{-1}X^Ty$

对于分类问题而言，假如使用线性回归模型，那么很可能存在噪声数据，导致我们的假设函数非常倾斜，那么就容易把正类判断为负类。

want

关注