Stanford机器学习---第二讲. Linear Regression with one variable

最新推荐文章于 2019-02-18 10:49:55 发布

linuxcumt

最新推荐文章于 2019-02-18 10:49:55 发布

阅读量666

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linuxcumt/article/details/8569506

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

============Model Representation==============

1.符号表示

2.模式表示

=============Cost Function===============

1.cost fuction,平方差话费函数是最基本的。

2.当theta1=1，theta0=0时的h和J函数

3.当theta1=0.5，theta0=0时的h和J函数

4.当theta1=0，theta0=0时的h和J函数（此时J函数包含其他值），注意

J函数满足高斯分布，寻找J函数的最小值对应的theta即我们的求解目标。

5.当存在两个参数theta0和theta1时，cost function是一个三维函数，

这种样子的图像叫bowl-shape function。

花费函数值为碗底到底平面的距离

6.我们的目的是最小化cost function,即下图中最后一幅图，

theta0=450,theta1=0.12的情况

============Gradient Descent===============

1.从任意初值开始下降都行

2.环顾四周，找最陡的坡度下降。出发点不同，最终的目的地可能不同。

3.梯度下降算法

4.gradient即J在该点的切线斜率slope，tanβ。下图所示分别

为slope（gradient）为正和负的情况：

5.关于学习率---------α太小：学习很慢；α太大：容易过学习，甚至不收敛，发生左右摆动的情况

6.如果到达极值后，该怎样呢？

7.无需逐渐减小α，就可以使下降幅度逐渐减小（因为梯度逐渐减小）：

8.对偏倒数的数学计算

9.左图随着右图的参数不断优化而逐渐找到最佳逼近

10.batch 梯度下降：每一步都要SUM所有的数据。有更好的方法可以

只需要处理数据的子集。

11.一些有用的点评

1、这一维线性回归存在过拟合问题，要引入正则项才能提高学习器的泛化能力。神经网络也存在此类问题。
2、梯度法的学习率\alpha比较难设定，同时梯度法容易陷入局部极小点。当然了，如果求解的问题是凸规划的话，梯度法寻找全局极小点没问题的。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Stanford机器学习---第二讲. Linear Regression with one variable

============Model Representation==============1.符号表示2.模式表示=============Cost Function===============1.cost fuction,平方差话费函数是最基本的。2.当theta1=1，theta
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。