深度学习
文章平均质量分 95
鹿子沐
沉迷于代码,日渐消瘦
展开
-
第三门课:结构化机器学习项目-机器学习策略
改善系统的策略:1、收集更多数据2、训练集多样性(如,识别猫,收集各种姿势的猫,以及反例)3、训练的时间更长一些4、尝试不同的优化算法(如 Adam优化)5、尝试规模 更大 / 更小 的神经网络6、尝试 DropOut 正则化7、尝试添加 L2 正则化8、修改网络架构(修改激活函数,隐藏单元数目)需要判断哪些是值得一试的,哪些是可以舍弃的1、 要弄好一个监督学习系统,要确保四件事情2、1>在成本函数上不能很好地拟合训练集2>在训练集上做得很好,但开发集<验证集>不行3>在开发集上做原创 2024-03-16 20:43:36 · 670 阅读 · 0 评论 -
第二门课:改善深层神经网络<超参数调试、正则化及优化>-超参数调试、Batch正则化和程序框架
Batch归一化的做法是将z[l]值进行Batch归一化,简称BN,此过程将由β[l]和γ[l]两参数控制,这一操作会给出一个寻得规范化的z[l]值<z[l]波浪线>,然后将其输入激活函数中得到a[l],即a[l]=g。γ和β的作用是使隐藏单元值的均值和方差标准化,即z^(i)有固定的均值和方差,均值和方差可以是0和1,也可以是其它值,它是由γ和β两参数控制的。会使你的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好,也会使你的训练更加容易.原创 2024-03-16 15:14:08 · 1235 阅读 · 1 评论 -
第二门课:改善深层神经网络<超参数调试、正则化及优化>-优化算法
平稳段会减缓学习,平稳段是一块区域,其中导数长时间接近于0,平稳段学习十分缓慢,要很长时间才能走出平稳段。在以上几个导数中,发现动量梯度下降法的本质是纵轴上的摆动平均值接近于0,但在横轴方向,所有的微分都指向横轴方向,因此横轴方向的平均值仍然较大。mini-batch 梯度下降,每次迭代后 cost 不一定是下降的,因为每次迭代都在训练不同的样本子集,但总体趋势应该是下降的。慢慢减少 学习率 的本质在于,在学习初期,使用较大的步伐,开始收敛的时候,用小一些的学习率能让步伐小一些。原创 2024-03-08 17:53:38 · 694 阅读 · 0 评论 -
第二门课:改善深层神经网络<超参数调试、正则化及优化>-深度学习的实用层面
2]是最大的权重矩阵,因为拥有最大参数集,即7×7,为了预防矩阵的过拟合,对于这一层(第二层),它的keep-prob值应该相对较低,假设是0.5。对于其它层,过拟合的程度可能没那么严重,它们的keep-prob值可能高一些,可能是0.7,这里是0.7。Dropout遍历网络的每一层,并设置消除神经网络中节点的概率,假设每个节点得以保留和消除的概率为0.5,设置完节点概率,消除一部分节点,然后消除从该节点进出的连线,最后得到一个节点更少、规模更小的网络,然后使用backprop进行训练。原创 2024-03-08 17:36:00 · 1820 阅读 · 0 评论 -
第一门课:神经网络与深度学习
超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的,超参数一般就是根据经验确定的变量。相当于sigmoid,如果z趋于无穷大,那么z的sigmoid函数得到的结果是1,如果z趋于负无穷大,那么z的sigmoid函数得到的结果是0.当y=0时,L(y帽,y)=log(1-y帽),则此时y帽要尽可能得小,那么损失函数才能尽可能的小,因此y帽趋近于0。当y=1时,则L(y冒,y)=-log(y帽),则此时y帽要尽可能得大,那么损失函数才能尽可能的小,因此y帽趋近于1。比如,深度学习的权重w,偏差b等。原创 2024-03-07 13:22:23 · 927 阅读 · 0 评论