举例为:预测房屋价格(这里的特征也称作变量,变量不一定为特征)
特征为 房屋平方、卧室数量、楼层数、房屋年龄
label 为房屋价格
X的上标表示第i个样本 下标j表示第i个样本的第j个特征
x=[x0,x1,x2,....xn]向量 (其中x0为构造的值为1) theat = [theta0,theta1,.....,thetan] 向量
***********************分割线*****************
代价函数:
损失函数(loss function/cost function):平方损失
函数J为所有误差平方之和
如何获得最佳的theta向量呢?
Gradient Descent
其中alph为学习率,后面为J(theta)导数
如何让梯度下降更快地收敛:
- 特征缩放features scaling
若各特征值差别过大,将会影响梯度下降收敛效率。比如说房屋大小是平方米(0-2000),但是卧室的个数