网易公开课讲义1 Linear Regression 笔记

最新推荐文章于 2018-05-01 12:13:14 发布

ab1355531

最新推荐文章于 2018-05-01 12:13:14 发布

阅读量869

点赞数

分类专栏： machine learning 文章标签：线性回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ab1355531/article/details/38879469

版权

machine learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.线性回归函数loss function ：残差平方和，系数1/2 消除求导时系数

为什么选择这个函数作为loss function？

，最后一项表示误差项(error term)，假设其服从高斯分布且独立同分布IID

PS：中心极限定理：如果误差是由许多共同效应产生的，且都是独立的，效应的综合趋向于服从高斯分布。

因此

然后，求最大似然估计值，化简后，发现相当于最小化上面的loss function函数

2.最小化loss function，确定参数θ

（1）最小二乘法，直接使用数学推导的公式

（2）梯度下降法（gradient descent） -得到局部最小值

a) batch gradient descent批梯度下降：每次θ的更新迭代使用全部的训练数据

b) 增量（随机）梯度下降：每次只使用一条数据（会不断在收敛处徘徊）

（3）牛顿法

可求函数f(θ)=0的解

迭代式子：

求解最大似然估计时，可转化成求L‘(θ)=0的解

当θ是向量时，迭代公式如下：

其中H是Hessian矩阵

牛顿法收敛速度快，迭代次数少，但是计算量较大（求Hessian矩阵的逆）。当θ的维数不是太大，总体还是计算得比较快。

3 locally weighted linear regression

每条数据的贡献不一样，增加权重系数ω

其中x是要预测的特征，与x越相似，权重越大。

θ无法预先计算，预测的特征x不同，θ的值也不一样。

此方法称为非参数学习算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网易公开课讲义1 Linear Regression 笔记

loss function
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。