深度学习理论
文章平均质量分 90
以花书为基准,整理部分内容
你回到了你的家
这个作者很懒,什么都没留下…
展开
-
batch norm参数
在阅读源码的过程中,BN代码部分出现了一些之前没见过的参数,在这里总结一下(用小写字母代表,具体出现在各个程序的源码中可能有区别,但是大致应该相同)。epsilon:防止normalization过程中分母出现为0的情况,一般设置为很小的值(例如1e-5),如下是batch norm的算法描述过程,在算法第四步中分母部分出现了epsilonmomentum:batch norm需要计算加权...原创 2020-01-17 11:57:54 · 4679 阅读 · 1 评论 -
四、数值计算
3 基于梯度的优化方法优化指的是改变 xxx 以最小化或最大化某个函数 f(x)f(x)f(x) 的任务。我们通常以最小化 f(x)f(x)f(x) 指代大多数最优化问题。最大化可经由最小化算法最小化 −f(x)−f(x)−f(x) 来实现。我们把要最小化或最大化的函数称为 目标函数(objective function)或 准则(criterion)。当我们对其进行最小化时,我们也把它称为 代价函数(cost function)、损失函数(loss function)或 误差函数(error func原创 2021-11-04 12:17:36 · 168 阅读 · 0 评论 -
二、线性代数
6 特殊类型的矩阵和向量对角矩阵对角矩阵(diagonal matrix)只在主对角线上含有非零元素,其他位置都是零。形式上,矩阵 DDD 是对角矩阵,当且仅当对于所有的 i≠j, Di,j=0i\ne j, \ D_{i,j}=0i=j, Di,j=0。单位矩阵就是最常见的一种对角矩阵,对角元素全部是 1。我们用 diag(v)diag(v)diag(v) 表示一个对角元素由向量 vvv 中元素给定的对角方阵。对角矩阵受到关注的部分原因是对角矩阵的乘法计算很高效。计算乘法 d原创 2021-11-04 11:40:08 · 2329 阅读 · 0 评论 -
七、深度学习中的正则化
机器学习中的一个核心问题是设计不仅在训练数据上表现好,而且能在新输入上泛化(?)好的算法。在机器学习中,许多策略被显式地设计来减少测试误差(可能会以增大训练误差为代价)。这些策略被统称为正则化。待补充 1411 参数范数惩罚...原创 2021-11-04 00:14:36 · 360 阅读 · 0 评论