深度学习之卷积神经网络学习摘录（一）

最新推荐文章于 2021-07-12 14:33:49 发布

grafx

最新推荐文章于 2021-07-12 14:33:49 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习 / 深度学习文章标签：深度学习卷积神经网络

本文链接：https://blog.csdn.net/grafx/article/details/54427636

版权

机器学习 / 深度学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

搞深度学习，卷积神经网络需要耐住性子，顶住压力。耐住性子，因为每次调整参数后，随后就是漫长的模型训练过程，可能训练1天、3天，甚至更久才能出结果，需要等，不向平时写程序那样，编码完成后，编译、运行、调试都是分分钟的事。顶住压力，就是花了好几天训练，结果模型还是精度低，不理想，这对于一个原本信心满满的算法工程师来说，还是有压力的，尤其是在一些项目时间比较紧急的情况下。总体来看，还是觉得这个方向比较适合博士学历做，硕士学历去做知识面还是有些窄，但是这个也要靠些天赋，说不定一不小心就训练出来一个精度高、体积小、速度快的模型，毕竟现在也没几个人能把深度学习的本质搞明白，另外有时候胜出者并非有最好的算法，而是有更多的数据。

当时也做了一段时间，看了很多算法资料，也动手实现了最简单的LeNet-5网络，如果这个网络搞明白了，也算是卷积神经网络入门了，甚至说算法原理上已经基本一马平川了，后面面临的难度就主要在于网络设计及调参。同时手动写一遍CNN，对算法核心中的正向传播、反向传导理解也更深。所以当时并没有直接拿matlab cnn工具箱或者caffe去训练，觉得那样只能快速得到结果，但感觉原理理解不深刻。

下面是一些学习摘录，比较零散。由于过去时间比较久，主要是去年3、4月份开始接触深度学习及卷积神经网络。现在好久没搞了，对这块领域大脑没状态、热度降低，自然有些知识点就模糊了，当然花些时间还是可以捡起来的，所以本文写的很不走心。后悔当时没有及时整理文章，按照那时的状态及学习心得，应该可以写出很多东西。本文主要还是适合有一些卷积神经网络基础，但是很多细节还没彻底搞明白的人读。

对于单个样例（x，y），其代价函数为：

这是一个（二分之一的）方差代价函数。给定一个包含m个样例的数据集，我们可以定义整体代价函数为：

以上公式中的第一项J(W, b)是一个均方差项。第二项是一个规则化项（也叫权重衰减项），其目的是减小权重的幅度，防止过度拟合。J(W, b; x, y)是针对单个样例计算得到的方差代价函数。J(W, b)是整体样本代价函数，它包含权重衰减项。我们的目标是针对参数W和b来求其函数J(W, b)的最小值。不过J(W, b)是一个非凸函数，梯度下降法很可能会收敛到局部最优解。但是在实际应用中，梯度下降法通常能得到令人满意的结果。

梯度下降法中每一次迭代都按照如下公式对参数 W和b进行更新：