7.神经网络与深度学习（六）—改进学习效率

最新推荐文章于 2024-08-07 06:30:00 发布

quinn1994

最新推荐文章于 2024-08-07 06:30:00 发布

阅读量1.8k

点赞数

分类专栏：机器学习神经网络与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quinn1994/article/details/79872764

版权

机器学习同时被 2 个专栏收录

24 篇文章 9 订阅

订阅专栏

神经网络与机器学习

16 篇文章 5 订阅

订阅专栏

1）引言

前面我们初步认识了神经网络在图像识别当中的应用，我们虽然得到了比较好的识别率，但是能否再提高一点呢？

2）代价函数的改进

(1)交叉熵函数(cross entropy)

首先我们先来看一下公式，其中a是神经元输出，训练输入为x=1,目标输出是y=0：

这里，。

我们再来看一下，sigmoid函数图像：

这里我们可以清楚地看到，当函数输出值接近0或1的时候，其导数都逼近0。也就是说逼近0，那么公式（55）和（56）不可避免的都变得很小。而这两个公式代表的是神经网络的学习效率，这也就导致一个问题神经网络训练效率越来越低。

那么，我们该如何解决呢？

这里我们选择换一种cost function既然我们二次代价函数有缺点，那么我们试试别的函数—交叉熵函数（cross entropy）。

为什么选择它呢？这里有两个原因：

恒为正。a和y都是在（0，1）内，所以式子中每一项都是负数。括号前面有一个负号，最后得到正数。
a和y相近时，C为0。如：当y=0，a约等于0时，C=0。

我们来推一下，为什么交叉熵代价函数能够避免学习速率的降低：

我们对w求偏导数，得到如下：

这里激励函数（z=wx+b）对w求偏导数得到x。再将括号内的式子通分：

再根据：

得到如下：

我们惊喜的发现，交叉熵函数对w的偏导数与无关了，只与目标输出和实际输出的差值有关。这个优良特性更加符合人学习的特点，错误大的时候，改动的大，错误小的时候，改动的小。

(2)对数似然函数（log-likelihood）

我们之前对网络中的每一层都用的是sigmoid函数激励加权求和得到激励值（activation value）。这里我们要对输出层的输出方程做出改变，不再用之前的方式，换成下式：

这个激励函数叫做柔性最大值函数，得到的激励值是。那么，这个函数的好处是什么呢？让我们根据公式（78）推导一下：

这里我把输出层的所有神经元加了起来，最后得到的结果是1。我们自然可以想到，每一个神经元输出其实是一个概率。得到这个关系，我们可以引出对数似然代价函数（log-likelihood）。如下：

我们举个例子，如果我们输入的是7的图像，那么代价函数的值是。如果神经网络输出的值（概率接近1）大，那么其对应的代价函数的值也就小。换句话说，也就是误差小，学习速率低。反之亦然。这种情况也是满足我们对代价函数的要求。我们可以再证明一下，这里我们还是对w和b求偏导：

我们可以看到，果然只与目标输出和实际输出的值有关了。撒花

希望有志同道合的小伙伴关注我的公众平台，欢迎您的批评指正，共同交流进步。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

quinn1994 CSDN认证博客专家 CSDN认证企业博客

码龄7年

128: 原创

3万+: 周排名

192万+: 总排名

103万+: 访问

: 等级

7154: 积分

493: 粉丝

975: 获赞

266: 评论

4962: 收藏

私信

关注

热门文章

分类专栏

最新评论

elmo驱动器用stm32单片机控制
吃嘛嘛香142: 请问单片机控制驱动器怎么实现，是PC控制单片机来控制驱动器，还是直接单片机控制驱动器
python遗传算法(详解)
zdtgbj: 我为什么完整代码跑不出来
遗传算法关于多目标优化python（详解）
HUST_zxs: （接上一条评论，因为单次评论限制1000字符以内）当然，即使有这两个问题，代码还是可以正常运行，这里其实涉及到了NSGAII的原理了。在父代和子代共同组成的多个帕累托前沿中，NSGAII会先用某些较优的帕累托前沿的全部个体填充新父代，填充到一定程度，再用某个帕累托前沿的部分个体填充新父代，填充至种群数量。实际上，只有当用某个帕累托前沿的部分个体填充新父代时，拥挤距离才真正发挥出筛选个体的作用，也就是说，拥挤距离真正发挥作用的场景其实有限。回到代码，即使拥挤距离相关的计算有错误，这种错误并不影响NSGAII用某些较优的帕累托前沿的全部个体填充新父代的过程，所以种群的进化还是可以得到保证，这种错误产生的不利影响也只是筛选某个帕累托前沿里的个体时，筛选没有那么准而已。用通俗的话说就是，有错误，但是错误不致命，所以代码还是可以正常运行。另外，还有很多细节不完善，会让初学者很困惑： 1. 调用函数时，传递的参数都是list的切片，仔细分析代码会发现，有些地方其实可以直接传递list的名字，而有些地方必须传递list的切片。 2. 注释有误导性，比如sort_by_values函数和fast_non_dominated_sort函数前面的注释，还不如不写。 3. 拥挤距离相关的代码都不够简洁。
遗传算法关于多目标优化python（详解）
HUST_zxs: 仔细学习了这个代码，这个代码其实是求两个目标函数的最大值，但是用matplotlib画图的时候，为了让画图效果和原理讲解里的画法一致（也就是帕累托前沿是第一象限里的曲线），所以取目标函数的相反数，作者没交代清楚这一点。除了评论区提到的130行和132行的问题外，还有两个比较大的问题： 1. 拥挤距离的计算没有意义，因为在crowding_distance函数里，先把输入的front内部的个体按照目标函数1的值从小到大排序，计算出的拥挤距离是目标函数1下的排序后的个体的拥挤距离，再把输入的front内部的个体按照目标函数2的值从小到大排序，计算出的拥挤距离是目标函数2下的排序后的个体的拥挤距离，两种拥挤距离对应的个体顺序不一样，那么两种拥挤距离相加没有意义（也就是129行~132行）。 2. 极其隐蔽的错误，按照拥挤距离筛选个体的操作有误（这个错误是和拥挤距离的计算没有意义相关的一个错误），crowding_distance函数输出的distance其实和输入的front内部的个体的原有顺序没有关联了，而在精英策略里，通过拥挤距离筛选个体时，计算某个front对应的拥挤距离从小到大排序的顺序，再用这个顺序作为索引取出这个front里的个体，并不等价于front里的个体按照其对应的拥挤距离从小到大排序的结果（也就是196行，197行），所以操作有误。
【TeeChart】【msflxgrd】等.ocx怎么在vs2013(mfc)中使用
不过是想你: 博主你好请问还有teechart 8 的ocx文件吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。