大数据最全AI遮天传 DL-回归与分类_分类回归 ai(2)

交叉熵误差函数(CSE)

对于伯努利分布,我们最大化条件数据似然,得到等同于最小化:

得到新的损失函数(CSE)  E(\theta) = -\frac{1}{N}\sum_{n=1}{N}(t{(n)}ln(h(x{(n)}))-(1-t{(n)})ln(1-h(x^{(n)})))

我们拿出其中一项:E(\theta )^{(n)} = -t{(n)}ln(h(x{(n)}))-(1-t{(n)})ln(1-h(x{(n)}))

  • 可见,如果t=1, 则E = -ln(h)

  • 如果t=0, 则E = -ln(1-h)

可见河里。

训练和测试

二分类问题总结

三、SoftMax回归

我们上面讲解了一维和多维二分类,其实对于多分类,只是增加了函数个数作为维度。

如上图,比如对于一个x,三个函数的结果为1.2、4.1、1.9,那么便可根据后续操作对其进行回归或者分类。这三个函数可能是线性的,也可能是非线性的,如logistic回归。

选择均方误差(MSE)作为损失函数

E = \frac{1}{2N}\sum_{n=1}{N}\sum_{k=1}{K}(f_{k}(x{(n)})-t_{k}{(n)})^{2}

对其使用最小二乘法/梯度下降法进行计算得出参数。

标签类别的表示

对于分类问题,即经过一个映射f 输出是一个离散的集合,我们有两种表示标签的方法:

对于第一种方法,类别之间有了远近的关系,因此我们一般使用第二种表示法。 每一个维度只有0-1两种结果。

我们只需看输出的某个点里哪一类代表的点更近即可进行分类。

概率角度:

我们上面提到,对于二分类任务,伯努利分布更加适合,因此我们引入了logistic回归。

而当面对多分类任务(K>2)时,我们选择 统筹 multinoulli/categorical 分布

回顾统筹 multinoulli/categorical 分布

统筹分布学习:

  • 令 P(t_{k}=1|x) 采取以下形式:

P(t_{k}=1|x)=\frac{exp(\theta {(k)T}x)}{\sum_{j=1}{K}exp(\theta ^{(j)T}x)}\overset{\Delta }{=}h(x)

明显地,h_{k}(x)\epsilon (0,1) 并且 \sum_{k=1}^{K}h_{k}(x)=1

  • 给定一个测试输入x,对每一个k=1,2,…,K,估计 P(t_{k}=1|x)

- 当x属于第K个类时,取很大的值

- 当x属于其他类时,取很小的值

  • 由于 h_{k}(x) 是一个(连续的)概率,我们需要将它转换为符合分类的离散值

Softmax函数

P(t_{k}=1|x)=\frac{exp(\theta {(k)T}x)}{\sum_{j=1}{K}exp(\theta ^{(j)T}x)}\overset{\Delta }{=}h(x)

下列函数被称为Softmax函数:

\psi (x_{i})=\frac{exp(z_{i})}{\sum_{j}^{}exp(z_{i})}=\frac{exp(z_{i})}{exp(z_{i})+\sum_{j\neq i}^{}exp(z_{i})}, \epsilon , (0,1)

  • 如果 z_{i} > z_{j } 对于所有 j\neq i 都成立,则对于所有的 j\neq i 有 \psi (z_{i})>\psi (z_{j}) 但其值小于1。
  • 如果 z_{i} > z_{j } 对于所有 j\neq i 都成立,则对于所有的 j\neq i有  \psi (z_{i})\rightarrow 1,: : \psi (z_{j})\rightarrow 0

同样,我们最大条件似然得到交叉熵误差函数

E(\theta )=-\frac{1}{N}lnP(t{(1)},...,t{(N)})=-\frac{1}{N}\sum_{n=1}{N}\sum_{k=1}{K}t_{k}^{(n)}ln\frac{exp(\theta {(k)T}x{(n)})}{\sum_{j=1}^{K}exp(\theta {(j)T}x{(n)})}

注:

\sum_{k=1}^{K}\frac{exp(\theta {(k)T}x{(n)})}{\sum_{j=1}^{K}exp(\theta {(j)T}x{(n)})}   对于每个K,只有一个非0项(因为如(0,0,0,1,0,0))

计算梯度

向量-矩阵形式

训练和测试

随机梯度下降

在整个训练集中,最小化成恨函数的计算开销非常大,我们通常将训练集划分为较小的子集或 minibatches 然后在单个 minibatches (xi,yi)上优化成本函数,并取平均值。

引入偏置bias

到目前为止,我们已经假设 h_{k}(x)=P(t_{k}=1|x)=\frac{exp( u_{k}{(n)})}{\sum_{j=1}{K}exp( u_{j}^{))n})}

其中 u_{k}^{(n)}=\theta {(k)T}x{(n)}

有时偏置项可以引入到 u_{k}^{(n)} 中,参数成为{w,b}

u_{k}{(n)}=w{(k)T}x{(n)}+b{(k)}

得到

正则化通常只应用在w上

J(W,b)=E(W,b)+\lambda \begin{Vmatrix} W \end{Vmatrix}^{2}/2

Softmax过度参数化

有假设 P(t_{k}=1|x)=\frac{exp(\theta {(k)T}x)}{\sum_{j=1}{K}exp(\theta ^{(j)T}x)} =\frac{exp((\theta ^{(k)}-\phi ){T}x)}{\sum_{j=1}{K}exp((\theta ^{(k)}-\phi )^{T}x)}

新的参数 \widehat{\theta }^{(k)}\equiv \theta ^{(k)}-\phi 会得到同样的预测结果

最小化交叉熵函数可以有无限多个解,因为:

E(\theta )=-\frac{1}{N}\sum_{n=1}{N}\sum_{k=1}{K}t_{k}^{(n)}ln\frac{exp(\theta {(k)T}x{(n)})}{\sum_{j=1}^{K}exp(\theta {(j)T}x{(n)})}=E(\theta -\phi )

其中 \phi = (\phi_{1},\phi_{2},\phi_{3}...)

四、Softmax回顾和logistic回顾的关系

Softmax回归中,令K=2

h_{1}(x)=P(t_{1}=1|x)=\frac{exp(\theta ^{(1)T}x)}{exp(\theta ^{(1)T}x)+exp(\theta ^{(2)T}x)} = g(\theta ^{(1)}-\theta ^{(2)})

h_{2}(x)=P(t_{1}=1|x)=\frac{exp(\theta ^{(2)T}x)}{exp(\theta ^{(1)T}x)+exp(\theta ^{(2)T}x)} = 1-g(\theta ^{(1)}-\theta ^{(2)})

其中h是softmax函数 g 是logistic函数

如果定义一个新的变量 \widehat{\theta }\equiv \theta ^{(1)}- \theta ^{(2)} 那么就和logistic回归是相同的

五、总结

一般意义的交叉熵

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

存中…(img-gi77imtD-1714766214971)]
[外链图片转存中…(img-mB2UBMQZ-1714766214971)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值