Liner Regression

对于有n个特征的实例,建立形如

矩阵表示为


的线性回归模型。

x表示各特征的值,θ表示为拟合数据而加入的参数;X为m*n的矩阵,θ为n*1的矩阵。

为评估所建立的h(x)模型的准确性、适用性,需将理论值与实际值进行比较,衡量准确性的方法为代价函数,形如


矩阵表示式为


代价函数的自变量为θ矩阵,因变量的大小与准确性成负相关,当且仅当代价函数(近似)取得最小值时,相应的θ参数矩阵为使线性回归模型更合适的最优解。

求使代价函数取得最值得参数矩阵,可用最小二乘法(正规方程)、梯度下降法,牛顿法和拟牛顿法等方法。

最小二乘法公式:


最小二乘法适用条件:1、各特征相互独立、没有线性关系,即实例m*n矩阵行列式不0。2、特征量<10000  3、假设函数为线性函数(若不是线性函数,可进行换元)。   4、m>n

梯度下降公式:


需对θ设置初始值,α为学习率常数,对每个θ分别代入上式进行迭代,随着θ逐渐减小,偏导数逐渐减小,当偏导数->0时,代价函数取得最小值,此时的θ便为所求的参数矩阵。需要注意的是,各个θ需要同时迭代更新,即:


通过以上完整过程,便得到一个较合适的线性回归模型。

另外,为适当增加特征,可使用多项式回归,如图:


由于上式并非线性模型,可令x[3] = x[1]**2,x[4] = x[2]**2,x[5] = x[1]*x[2],即:


使用多项式回归还有可能造成过拟合的问题,为解决这一问题,可用正则化方法,对高次项的参数进行适当的减小。然而当特征过多或不知该减小哪个单项式的参数时,需对除x[0]外所有x的参数进行惩罚。下面介绍正则化的Lasso回归和Ridge回归。

Lasso回归的公式:


α为一个初始设置的常数,||θ||为向量θ的范数。求解公式可用坐标轴下降法。

Ridge回归的公式:


令代价函数对矩阵θ的导数为零(即对各个θ的偏导数为0),解出θ矩阵为:


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值