一 序
本文属于贪心NLP学习笔记系列。本章开始学习非常重要的逻辑回归。
二 逻辑回归
2.1常用场景
逻辑回归非常广泛在分类场景。
·贷款违约情况(会违约/不会违约)
·广告点击问题(会点击/不会点击)
·商品推荐(会购买/不会购买)
·情感分析(正面/负面)
·疾病诊断(阳性/阴性)
·还有其他很多分类问题……此外这个算法可以用来做baseline,很好,非常经典,非常优秀。未必比其他神经网络模型差很多。
案例:有一批信用卡逾期的数据,
年龄,工资,学历可以看做输入X,是否逾期可以看做标签Y。目的是学习f : X → Y 映射关系
这种关系我们也可以定义为一种条件概率:P(Y∣X)
2.2 引出问题
现在两个问题:
1、这个条件概率P ( Y ∣ X ) P(Y|X)P(Y∣X)怎么算?
实际上就是求P(Y∣年龄,工资,学历),我们把Y=1表示逾期。例如:P(1∣20,4000,本科)
2、假设我们明确知道条件概率P(Y∣X),怎么做分类?
分别求P(Y=1∣X)和P(Y=0|X),然后比较大小即可。
问题1:这相当于用模型来捕获输入X和输出y之间的关系
这个关系可以是线性,也可以是非线性的。现在在讲逻辑回归。
所以引出问题2我们考虑可不可以用线性回归来表示P(Y∣X)=wTx+b?为什么?
答案是否,原因是等式左边是一个条件概率,因此它有两个限制:
1、值域是[0,1]
2、所有y的概率加起来等于1:∑yp(y∣x)=1
等式的右边明显是不可能满足第一个条件的(− ∞ < w T x + b < + ∞ ),所以这个等式不能成立。
现在就是要把wTx+b的值域映射到[0,1]。
2.3 逻辑回归函数Logistic Function
sigmoid就是逻辑函数的一种。神经网络通常用作激活函数(老师没展开讲)
观察这个图像,可以得知:
- 值域y在0和1之间,定义域在(-∞,+∞)。超过一定范围就会不敏感(要么趋近于1,要么趋近于0)
- 函数具有非常好的对称性
把sigmoid函数写为:y = σ(x),套入上面的公式。
所以通过这个变化,可以吧条件概率写成逻辑函数。
这里参数:w通常会写成一个向量的形式,.w 就是表示一个维度的向量。
T代表转置transform, 可以理解为{w1,w2,...wd}.就是把矩阵90度横过来。
b是bias,是一个实数,做纠正来用的。
总结下:原始的条件概率 不符合,加上逻辑函数之后。
那么回到原来的例子。第一个样本可以写为:
=(20,4000,本科)
我们可以把这个东西理解为特征向量。这里的参数w,由于有3个特征,所以参数也是3维的。b是一个实数。
把这些套到上面的公式:这个公式拼起来很复杂,我就用老师手写截图来替代了。
说真的,要是老师不讲我自己是看不懂这种公式的。循序渐进,不是上来就跟你讲公式,而是从问题引出来。更加便于我这种小白来容易理解。
通过已有的样本(前面5个数据),我们可以计算出参数w,b。
同样可以写出Y=No的概率,由于是二分类问题:P(Y=No)=1-P(Y=Yes)
对于逻辑回归来说,重点就是怎么确定表达式。而表达式确定之后,就是怎么求w,b.
问题求解w,b
上面e的指数少了括号。红线部分。手抖没加全。
本节笔记拼公式挺费劲的。再次感谢李文哲老师。