#详细解读# 线性回归、逻辑回归及其损失函数

想要了解线性回归和逻辑回归的差别,我们首先要明白线性回归中的线性具体是什么意思,请参考这篇文章:#深入理解# 线性回归中的“线性”、以及最小二乘和梯度下降的理解

1. 线性回归

线性回归中的线性是将拟合函数中的x看做是常数,参数看作是自变量后,函数的最高次项为1;形式为:

y=w_1x_1+w_2x_2...w_nx_n+by=w_1x_1+w_2x_2...w_nx_n+b

线性回归中的线性只是指其中的拟合函数是线性,和损失函数没有关系;损失函数是衡量一个拟合函数和真实值之间偏差的一种函数

损失函数一般使用 MSE、RMSE、MAE等,因为逻辑回归输出值是0~1本身给出的就是一个该概率值,而线性回归没有激活函数需要使用某种方式构造一种损失,那么最容易想到的便是最小二乘或RMSE,MAE等

2. 逻辑回归(LR)

逻辑回归在线性回归的基础上增加了激活函数(sigmoid)将输出限制在0到1,因此我们用交叉熵作为逻辑回归的损失函数,这里简述以下交叉熵和sigmoid激活函数:

2.1 交叉熵

1. 熵的定义:

H(x)=-\sum_{i=1}^{n}p(x_i)log(p(x_i))

2. KL散度的定义:

D_{KL}(p||q)=\sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(x_i)})=\sum_{i=1}^{n}p(x_i)log(p(x_i))-\sum_{i=1}^{n}p(x_i)log(q(x_i))= -H(p)+[-\sum_{i=1}^{n}p(x_i) log(q(x_i))]

因为标签分布不变,所以-H(p)可以看作常数,因此最小化KL散度等价于最小化后边这一项,这一项就是交叉熵H(p,q)

3.交叉熵的定义

H(p,q)=-\sum_{i=1}^{n}p(x_i) log(q(x_i))

KL散度是在p分布为基础衡量不同q分布和q分布的相似程度,KL散度越小,p和q的分布越相似,最小化交叉熵等价于最小化KL散度

2.2 sigmoid激活函数

sigmoid激活函数及其导数为:

y=\frac{1}{1+e^{-x}} \qquad y'=y*(1-y)

2.3 二元交叉熵损失函数

针对上述交叉熵公式,我们可以从两个方面来理解:

2.3.1 直接套用交叉熵公式:

H(p,q)=-\sum_{i=1}^{n}p(x_i) log(q(x_i))\\= -\sum_{i=1}^{m}y_ilogh_\theta (i)+(1-y_i)log(1-h_\theta (i))

2.3.2 用极大似然估计的思想推导交叉熵公式:

like\quad lihood = \prod_{i=1}^{m}P(x_i|\theta )=\prod_{i=1}^{m}h_\theta (i)^{y_i}*(1-h_\theta(i))^{1-y_i}\\ - log\quad likelihood = -\frac{1}{m}\sum_{i=1}^{m}y_ilogh_\theta (i)+(1-y_i)log(1-h_\theta (i))

  1. 求所有值预测正确的似然函数并最大化,

  2. 对这个似然函数取 - log 将最大化似然函数转化为最小化损失函数从而求解参数值(log还能将指数运算转化为乘法运算,乘法运算转化为加法运算,从而降低运算量)

注:因为每个样本之间是相互独立的,因此对所有样本预测成功的概率等于多个样本预测成功的联合概率分布,等于每个样本预测概率的乘积

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

energy_百分百

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值