logistic regression

step1. function set 

 f_{w,b} (x) = P_{w,b}(C_{1}|x) 

 P_{w,b}(C_{1}|x) = \sigma (z)

z = w\cdot x + b=\sum_{i}w_{i}x_{i}+b

 

step2. goodness of a function

一大波公式来袭... 以后再编辑吧...

x^{1},x^{2},x^{3},... 的类别为C_{1},C_{1},C_{2},... 则the probability of generating the data is 

L(w,b) = f_{w,b}(x^{1})f_{w,b}(x^{2})(1-f_{w,b}(x^{3}))...f_{w,b}(x^{N})

w^{*},b^{*} = arg\, \underset {w,b}{max}L(w,b)= arg\, \underset {w,b}{min}-lnL(w,b)

-lnL(w,b) = -lnf_{w,b}(x^{1})-lnf_{w,b}(x^{2})-(1-lnf_{w,b}(x^{2}))...

\hat{y}^{n}=\left\{\begin{matrix} 1\:,\:\:\: \: \: x \:\:belongs\:\:to\:\: Class1\\ 0\:,\:\:\: \: \: x \:\:belongs\:\:to\:\: Class2 \end{matrix}\right.

-lnf_{w,b}(x^{1}) =\\ \\ -[\hat{y}^{1}lnf(x^{1})+(1-\hat{y}^{1})ln(1-f(x^{1}))]=-[1\cdot lnf(x^{1})+0\cdot ln(1-f(x^{1}))]

-lnf_{w,b}(x^{2}) =\\ \\ -[\hat{y}^{2}lnf(x^{2})+(1-\hat{y}^{2})ln(1-f(x^{2}))]=-[1\cdot lnf(x^{2})+0\cdot ln(1-f(x^{2}))]

-lnf_{w,b}(x^{3}) =\\ \\-[\hat{y}^{3}lnf(x^{3})+(1-\hat{y}^{3})ln(1-f(x^{3}))] =-[0\cdot lnf(x^{3})+1\cdot ln(1-f(x^{3}))]

-lnL(w,b) = -lnf_{w,b}(x^{1})-lnf_{w,b}(x^{2})-(1-lnf_{w,b}(x^{2}))...

-lnL(w,b)=\sum_{n}-[\hat{y}^{n}lnf(x^{n})+(1-\hat{y}^{n})ln(1-f(x^{n}))] \\\rightarrow Cross\: entropy\: between\:two \:Bernoulli\: distribution \\\rightarrow H(p,q)=-\sum_{x}p(x)ln(q(x))\:\:\: as\:the\:following\:picture\:shows

 

 step 3:Find the best function

 该项被视为输出与目标的偏差,偏差越大则update的量越大

下图为logistic regression 和linear regression 的异同

Question:为什么不和线性回归一样用均方误差(square error)呢

 按理说离目标点越近微分值越小,离目标点越远微分值越大,则离目标点较远时步长较大,update的速度较快,离目标点较近时步长较小,update的速度较慢

若使用均方误差,则离目标很近,即 \hat{y}^{n} = 1,微分值为0;若离目标很远,即 \hat{y}^{n} = 0 ,微分值仍然为0,移动的速度将非常慢,一般选的初始值离目标都较远,则此时可能就直接卡住了,更新速度很慢,很有可能跑不出来,不容易得到好的结果

使用cross entropy 时若距离目标近,则微分值接近于0;若离目标很远,则微分值较大,update值较大

 logistic regression的称为discriminative(判别)的方法,而之前classification中使用高斯分布的方法称为generative(生成)的方法,实际上二者的model相同。logistic regression 是直接用gradient descent将w和b找出来,而若是generative,则需找出均值和协方差,从而得出w,b。

这两种方法找出的w和b不一样,因为做出的假设不同。前者未作出任何假设,后者假设概率分布是高斯分布/伯努利分布/... 

前者是联合分布概率最大,后者是条件分布概率最大,一般前者更好。

 why wrong?

朴素bayes中假设第一个feature和第二个feature是independent的,也就是说class2中第一个feature有一定几率为1,第二个feature也有一定几率为1,那么在class2中两个feature均为1的概率不为0. 而且class2占比很大,样本占比不均衡,将认为出现两个1很可能属于class2

 softmax若为两个class的话就reduce到logistic regression了

 limitation of logistic regression 

无法解决异或问题(本质是线性模型,线性模型无法解决异或问题)

 how to deal with the problem?

 feature transformation可以看成是多个logistic regression相叠加的结果

左框中的两个logistic regression用来做feature transformation,右框中的用来做classification

引入神经网络

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值