机器学习—深度学习之基础理论算法原理推导—线性回归(Linear Regression)算法原理推导

1. 概念

线性回归是有监督学习的一种,线性回归(Linear Regression)解决的是连续数据的预测问题,是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。线性回归是一个典型的回归问题,也即平时所说的最小二乘法。

2. 特点

优点:结果具有很好的可解释性(参数w直观表达了各属性在预测中的重要性),计算熵不复杂。

缺点:对非线性数据拟合不好

适用数据类型:数值型和标称型数据

3. 理论推导

3.1 数据

给定数据集D={(x_i, y_i)}, i=1,2,...,n,其中x_i=(x_{i1},x_{i2},...,x_{in}]), y_i \in R(即线性回归的输出空间是整个实数空间)。因此,在数据集D中共有m个样本,每个样本共有n个特征(或属性),则D可用m*n的矩阵X进行表示:

数据样本的真实值,即标签可用m*1的矩阵表示:

为了构建模型,假设存在参数W,W为n*1的向量:

则线性回归试图学得模型:

注意:有时候为了方便书写和推导,将偏置也表示成w0,并统一写到W向量中,即:

W=(w_0, w_1, w_2,...,w_n)^T,其中w_0=b

此时需要在每个样本第一列添加1,即:

x_i = (1, x_{i1}, x_{i2},...,x_{in})

则有b=w_0*1=w_0

3.2 对于每个样本,预测值与真实值之间多多少少存在一定的差异,即:

根据假设(或经验等),对于每个样本,误差\epsilon_i是独立且同分布的,并且服从均值为0,方差为w_i^2的高斯分布(正态分布)。

  • 独立:每个样本预测值与真实值之间的差异各不相同,互无关系
  • 同分布:由于是同一个模型对不同样本进行预测,故产生的误差具有相同的分布,由模型决定
  • 高斯分布:预测的误差不会太大,极小情况下出现浮动较大的情况。

3.3 由于误差服务高斯分布,则由其概率公式:

 

得误差的概率表达式为:

由(2)式得:

代入(3)式得:

(4)式即表示在已知参数W和数据xi的情况下,预测值为yi的条件概率。

3.4 似然函数

似然函数(Likelihood function):根据样本估计参数值。即什么样的参数与数据组合将可能得到最好的模型结果。

因此,对于所有样本,将其概率相乘,即为模型生成概率:

上式(5)中累乘计算复杂,因此可考虑通过对数变换成累加:

3.5 极大似然估计

极大似然估计:似然函数代表概率,因此越大越好。则对数似然函数也越大越好。分析式(6)得:第一项为常数项,因此第二项越小越好。令:

:留下\frac {1}{2}是考虑到便于求导抵消,所得J(W)为最小二乘法,即通过最小化误差的平方和寻找数据的最佳函数匹配。基于均方误差最小化来求解模型的方法叫最小二乘法。

将(7)式中参数用矩阵的形式表示为:

3.6 求解

目标函数J(W)为凸函数,因此对W求偏导并令偏导等于0,即可找到最优解。根据式(8)对W求偏导:

令偏导等于0,即:

对于式(10),存在两种情况:

X^TX可逆,则存在唯一解,即:

则所得线性回归模型为:

X^TX不可逆,则可能存在多个解,选择哪个解作为输出,将有学习算法的偏好决定,常见的做法是增加\lambda扰动,即:

3.7 理论上可以根据式(11)或式(13)直接求得W的值,但当X维度较高时矩阵求逆计算量非常大,因此在实际应用中往往采用梯度下降的算法更新W的值,即:

其中\alpha为学习率。

3.8 补充:矩阵求导公式

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值