ccc-Logistic Regression-李宏毅(5)

文章介绍了逻辑回归的概念,包括函数形式、最大似然优化以及梯度下降法。对比了逻辑回归与线性回归的区别,并讨论了为何不使用逻辑回归结合平方误差的原因。接着,文章探讨了判别模型与生成模型的差异,并介绍了多类分类中的Softmax函数。最后,提到了LogisticRegression的局限性和级联逻辑回归模型,以及这些概念如何在深度学习中得以扩展。
摘要由CSDN通过智能技术生成

上次通过贝叶斯推导出了一个线性的函数,这里尝试直接求解这个函数并称其为逻辑回归

Step 1: Function Set

在这里插入图片描述
它与linear regression模型不同在于输出:
在这里插入图片描述
其中 w : w i g h t w:wight w:wight , b : b i a s b:bias b:bias , x i : i n p u t x_i:input xi:input

Step 2: Goodness of a Function

假设N个training data从函数 f w , b ( x ) = P w , b ( C 1 ∣ x ) f_{w,b}(x)=P_{w,b}(C_1|x) fw,b(x)=Pw,b(C1x)产生,现在需要找到最好的参数 w ∗ w^* w b ∗ b^* b使 L ( w , b ) L(w,b) L(w,b)(likelihood)最大,公式表达如下:
在这里插入图片描述
通过对数似然可以转化成求解最小值,相乘转化成相加,同时约项有:
在这里插入图片描述
合并累加有:
在这里插入图片描述
Cross entropy意思是交叉熵,可以理解为两个伯努利分布的损失函数,当两者一样结果为0。与Linear Regression对比如下:
在这里插入图片描述

Step 3: Find the best function

image-20230211220700923
原始求解函式如下:
image-20230211220546373
第一项计算得:
image-20230211221237948
第二项计算得:
image-20230211221330057
代入原式整理后有:
image-20230211221612696
由这个结果可以知道,权重更新由3个参数决定:learning rate,x, y ^ n − f w , b ( x n ) \hat y_n-f_{w,b}(x^n) y^nfw,b(xn)即预测与实际的差异,表示如下:

Linear Regression与Logistic Regression梯度下降更新步骤相同:

但要注意Logistic的 y ^ \hat y y^是0或1,而Linear的是任意实数

Why not Logistic Regression + Square Error

三步建立Model如下:
在这里插入图片描述
但是这样会出现混淆,样本距离目标很近或很远时梯度计算都很小,这样会导致距离远时收敛过慢
image-20230211223001520
对比图如下:
在这里插入图片描述
可以看到,Cross Entropy距离目标越远,微分值越大,参数update越快;Square Error距离目标很远时候,微分值很小,参数update就很慢。可能你会想到,我们可以在Square Error的微分值很小的时候把learning rate设的大一点,但微分值很小的时候,也有可能是距离目标值很近,我们分不清楚微分值小时候是距离目标很近还是很远,所以没办法确定learning rate设置是小还是大。所以, 我们使用Cross Entropy可以让training顺利很多。

Discriminative v.s. Generative
  • 判别模型:如logistic regression直接寻找w和b
  • 生成模型:如Gaussian先假设再寻找(脑补特性)

不同方式具体表示图如下:
在这里插入图片描述
在本次实验中两者表现如下:
在这里插入图片描述
可以看到判别式效果好一些,一般也认为判别式效果更加。生成式有优势具体场景如下:
image-20230211225047197

GenerativeDiscriminative
概率联合概率P(X,Y)后验概率 P ( Y ∣ X ) P(Y|X) P(YX)
解释首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率 P ( Y ∣ X ) P(Y|X) P(YX),再利用它进行分类(所有概率进行比较,取最大的一个)输入属性X可以直接得到Y。有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型
特点尝试去找到底数据是怎么生成的,基于假设不进行过多假设,不关心数据产生,只关心差异
优点生成模型收敛速度比较快,即当样本数量较多时,生成模型能更快地收敛于真实模型直接学习 P ( Y ∣ X ) P(Y|X) P(YX)或f(X),可以对数据进行抽象、定义特征并使用特征,因此可以简化学习问题。直接面对预测,准确率较高
缺点需要更多的样本和更多计算,只需要做分类任务,就浪费了计算资源决策函数Y=f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),不能反映训练数据本身的特性
Multi-class Classification(3 Class)

计算不同类别的z值,放入Softmax函数中(又称激活函数,即取指数后归一)
在这里插入图片描述 Softmax拉大最大值与最小值的差距,即强化最大值。之后就可以计算预测和真实的交叉熵
在这里插入图片描述
需要注意给分类增加限制,采用one-hot编码
在这里插入图片描述

Limitation of Logistic Regression

某些时候,Logistic Regression并不能做到分类成功,但数据有一个异或的关系时,是无论无和都分类不成功的:
在这里插入图片描述
可以人为Feature Transformation将样本位置进行转换尝试分类:
在这里插入图片描述
需要一种机器帮助Transformation的算法,下面就是咯!

Cascading logistic regression models

将样本的Logistic 用来做feature transformation,再另外用一个Logistic预测,具体图如下:
在这里插入图片描述
效果图如下:
在这里插入图片描述

Deep Learning!

多层的特征转换就形成了Neural Network(神经网络)即Deep learning 的领域!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值