目录
预备知识:
1.线性回归方模型:
2.函数及其几何图:
Sigmoid函数是一个S形状的函数,
当自变量Z趋近正无穷的时候,g(z)趋近于1,
当自变量z趋近负无穷的时候,g(z)趋近于0.
它能够把任意的实数压缩转换到0~1的区间(不等于0或者1)
因此这种转换很适合用来做二分类。
因此,逻辑回归虽然后面带了回归,但是它是用来做分类的。
那么如何从线性回归得到我们的逻辑回归模型呢???
很简单:我们把线性函数 ,作为一个整体,直接带入到sigmoid中的z,就得到我们需要的逻辑回归模型的一般形式:
(接下来,你只要知道参数,和特征数据x,就可以把数据直接代入上面这个式子得到一个值了。而训练逻辑回归模型的任务就是想得到最好的拟合参数)
为了把上式转变成广义线性模型的样子。
这里令除以可以得到几率(odds),在几率的基础上取对数ln,得到:
右边形式就是线性模型的样子(亚子),因此我们把逻辑回归也叫做--对数 几率 回归
那么我们怎么得到这个模型的参数θ???
先看逻辑回归的损失函数:
我们知道只要有了损失函数,我们就可以指导模型训练,得到我们需要的参数。
但是这个损失函数是怎么来的?
答:通过最大似然估计推导出来的。
我们认为,参数为的逻辑回归模型中的一个样本i的预测情况表现为以下的形式:
1.样本i在由特征向量 和参数组成的预测函数中,样本标签被预测为1的概率为:
样本i在由特征向量 和参数 组成的预测函数中,样本标签被预测为0的概率为:
(当真实标签为1时,如果此时预测的概率等于1(则为0,1-1=0)。这代表样本被预测为1,与真实一致,此时对于单样本i来说模型预测完全准确,没有信息损失,相反如果此时预测不是1,而是0,那么原本真实为1,预测成了0就与真实情况相反了,这就错误了。反正之真实标签为0,也一样)
所以当真实标签为1的时候,我们希望的预测概率尽量的大,非常接近1,
当真实标签等于0的时候,我们希望的预测概率尽量大,非常接近1,这样模型就越准确越靠谱越不会分错,才没有损失。
将上面两个分开的式子,合并成一个单独的式子:
当真实标签等于1的时候,的0次方等于1,所以整个式子就等于预测出来的概率。
当真实标签等于0的时候,的0次方等于1,所以整个式子就等于预测出来的概率。
所以为了让模型拟合好,损失小,我们希望每时每刻的值等于1,也就是说每时每刻都在追求的最大值。
因此上面的问题变成了求极值的问题。
这个时候就可以引进极大似然估计了。(极大似然估计告诉我们,为了让后验概率尽可能的大,那就需要每一次的预测结果都
是它自己的真实概率)
最求上式的最值。等式两边log对数:
这就是交叉熵函数。
为了符合凸优化的习惯,求一个最值,一般都是求它的最小值,上面是求极大似然的最大值,前面加一个负号就变成求最小值,也就得到了我们最上面提的损失函数了。
这就是通过极大似然推导出损失函数的过程。
One more thing:
似然与概率是一组非常相似的概念,它们都代表着某件事发生的可能性,
但它们在统计学和机器学习中有着微妙的不同。
假设我们有表达式:
P(y|x,θ)
如果参数θ是已知的,x是未知的,那么这个时候研究的就是自变量和因变量之间的关系--这是概率
如果x是已知的,参数θ是未知的,那么这个时候研究的就是参数和因变量之间的关系--这是似然
线性回归模型对数据的要求很严格,如标签符合正太分布,特征之间不能有多重共线性。
逻辑回归受多重共线性的影响很小,甚至它有时候还需要增加特征的关联性来提升模型表现。
对于特征和标签线性关系极强的数据,表现的特好。而逻辑回归在非线性数据的效果就相当于瞎猜了。