线性回归:最小二乘法与极大似然估计

本文详细解释了线性回归中最小二乘法的原理,以及它与极大似然估计的关系。通过讨论似然估计的概念,说明为何误差平方和被用于损失函数,并介绍了L1和L2正则化在解决非满秩问题时的作用,以及它们如何影响线性回归模型的求解过程。
摘要由CSDN通过智能技术生成

在线性回归中,损失函数是【最小二乘法】,但是为什么使用该损失函数呢?【最小二乘法】与【极大似然估计】又有什么关系呢?

什么是“似然”?

在统计学中, 似然概率是相对的概念 。已知样本的数据分布,估计某个采样结果的可能性为概率估计;已知样本分布的结果,估计该分布的具体参数则为似然估计。

极大似然估计

假设:样本是独立同分布的(大多数机器学习模型的前提假设就是样本独立同分布),且样本服从正态分布(随机变量之和的分布近似服从正态分布)。
已知样本数据,求其服从的最有可能的分布,即求该样本分布的极大似然估计:
也即,求分布的具体参数 θ \theta θ
也即,求使得每个样本属于某正态分布的概率最大的参数;
又因为样本是独立同分布的,即等于求取每个样本的概率密度的连乘:

L ( θ ) = ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; θ ) L(\theta)=\prod_{i=1}^{N} p(y^{(i)}|x^{(i)};\theta) L(θ)=i=1Np(y(i)x(i);θ)

又因为概率(小于1的数)的连乘会是一个很小的数,上式可能直接会下溢到零,所以我们通过取对数log将概率的连乘转化为概率的求和(使用对数不会影响我们求取目标函数最大值,因为log函数是单调递增的,映射后不会影响变量之间的相对大小):

l o g ( L ( θ ) ) = l o g ∏ i = 1 N p ( y ( i ) ∣ x ( i ) ; θ ) = ∑ i = 1 N l o g ( p ( y ( i ) ∣ x ( i ) ; θ ) ) log(L(\theta))=log\prod_{i=1}^{N} p(y^{(i)}|x^{(i)};\theta)=\sum_{i=1}^{N} log(p(y^{(i)}|x^{(i)};\theta)) log(L(θ))=logi=1Np(y(i)x(i);θ)=i=1Nlog(p(y(i)x(i);θ))

求解最大化对数似然函数即可求得分布参数 θ \theta θ

arg max ⁡ θ L ( θ ) = arg max ⁡ θ ∑ i = 1 N l o g ( p ( y ( i ) ∣ x ( i ) ; θ ) ) \argmax_{\theta}L(\theta)=\argmax_{\theta}\sum_{i=1}^{N} log(p(y^{(i)}|x^{(i)};\theta)) argmaxθL(θ)=argmaxθi=1Nlog(p(y(i)x(i);θ))

为什么可以用误差平方和来表示线性回归问题的损失函数?

因为误差可被认为是服从正态分布的随机变量。
对于预测值 h θ ( x ( i ) ) h_{\theta}(x^{(i)}) hθ(x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值