============Model Representation==============
1.符号表示
2.模式表示
=============Cost Function===============
1.cost fuction,平方差话费函数是最基本的。
2.当theta1=1,theta0=0时的h和J函数
3.当theta1=0.5,theta0=0时的h和J函数
4.当theta1=0,theta0=0时的h和J函数(此时J函数包含其他值),注意
J函数满足高斯分布,寻找J函数的最小值对应的theta即我们
的求解目标。
5.当存在两个参数theta0和theta1时,cost function是一个三维函数,
这种样子的图像叫bowl-shape function。
花费函数值为碗底到底平面的距离
6.我们的目的是最小化cost function,即下图中最后一幅图,
theta0=450,theta1=0.12的情况
============Gradient Descent===============
1.从任意初值开始下降都行
2.环顾四周,找最陡的坡度下降。出发点不同,最终的目的地可能不同。
3.梯度下降算法
4.gradient即J在该点的切线斜率slope,tanβ。下图所示分别
为slope(gradient)为正和负的情况:
5.关于学习率---------α太小:学习很慢;α太大:容易过学习,甚至不收敛,发生左右摆动的情况
6.如果到达极值后,该怎样呢?
7.无需逐渐减小α,就可以使下降幅度逐渐减小(因为梯度逐渐减小):
8.对偏倒数的数学计算
9.左图随着右图的参数不断优化而逐渐找到最佳逼近
10.batch 梯度下降:每一步都要SUM所有的数据。有更好的方法可以
只需要处理数据的子集。
11.一些有用的点评
1、这一维线性回归存在过拟合问题,要引入正则项才能提高学习器的泛化能力。神经网络也存在此类问题。
2、梯度法的学习率\alpha比较难设定,同时梯度法容易陷入局部极小点。当然了,如果求解的问题是凸规划的话,梯度法寻找全局极小点没问题的。