linear regressiond

最新推荐文章于 2022-03-22 18:37:00 发布

shabi567

最新推荐文章于 2022-03-22 18:37:00 发布

阅读量334

点赞数

本文链接：https://blog.csdn.net/shabi567/article/details/45897427

版权

这是对andrew ng 公开课的笔记记录。

线性回归其实是要找到一个可以很好的拟合空间中的点的线性函数。为了衡量函数是否足够好，就需要对失误进行量化。几乎所有的线性回归都是采用最小二乘法，这个最小二乘法有很多种理解方式。

1. 公开课上给出了一种概率论的理解方式，即将假设失误|y - h(x)|遵循高斯分布（这里有一个IID的假设），这样要找到使整体失误的概率最大的方式，采用最大似然法的结果就是最小二乘法。

2. 这是一个cost function即对失误进行量化的函数，目的在于对失误进行记录，失误越大则函数越差，即惩罚越重，即penalty。这样考虑如何惩罚的时候采用最小二乘法有几个有点：

a. 无视符号

b.对失误大的点惩罚大

c.利于优化求解，convex

对于最小二乘法，andrew ng说过有很多种理解方式，因为当务之急是学习neural network，对于基础部分暂时跳过。（标记）

各种求解方法

Gradient Descent

首先要对特征归一化

1. batch gradient descent

也是通常意义上的gradient descent. 本质是找到下降最快的方向前进，其中需要设置步长。步长较大可能会不收敛，步长小收敛慢。私以为步长对这个算法尤为重要。

特点：收敛慢，是通解，只可以求得局部最优解，要求函数convex

2. incremental gradient descent

区别于batch的在于 batch一次性算完整个cost 函数的导数等，也就是说每次迭代都需要对整个数据库进行计算。这是很耗时的，且在收敛的前期即远离最优解的地方（远离是相对步长定义的）是没有意义。而incremental gradient descent是在时间和效果上做了tradeoff。因为一次只采用一个样本进行迭代，速度自然增加，但是无法保证找到的是最优解。（这也是我认为这个算法最大的问题）私以为可以放松对incremental gradient descent的收敛的判断条件，得出初步解之后用batch gradient descent。不过gradient descent本来也就是一种比较简单直观的算法，根据andrew ng的公开课，有很多种最优化算法，虽然比较复杂，但是速度快，而且不需要设定步长，因为不涉及算法，此处先跳过（标记）

特点：速度快，但是无法保证得到最优解。可以在要求不高的时候使用。