- 博客(4)
- 收藏
- 关注
原创 transformer--ViT
代码为了处理二维图像,我们将尺寸为 H×W×C的图像reshape为拉平的2维图块,尺寸为 (N×(P^2×C))。其中, (P,P)为图块的大小, N=HW/P^2 。 N 是图块的数量,会影响输入序列的长度。Transformer在所有图层上使用恒定的隐矢量D,因此我们将图块拉平,并使用可训练的线性投影映射到D的大小,将此投影的输出称为patch embedding。对应代码如下:直接暴力拉伸# Transformer. n, h, w, c = x.shape x = jnp.r
2022-01-16 17:17:59 2443
原创 深度学习——optimization
参数优化MathBatchMomentum李宏毅2021深度学习Math网络中梯度为0的点统称为critical point,包括全局最优点(blobal minina),局部最优(local minina)和鞍点(saddle point).在critical point,梯度为0,判断critical point属于哪种类型,取决于等式最后一项。H是正定矩阵——所有特征值均为正——局部最小值H是负定矩阵——所有特征值均为负——局部最大值特征值有正有负——鞍点从特征值判断cr
2022-01-13 16:43:52 429
原创 深度网络训练技巧
网络训练网络训练图示步骤网络训练图示李宏毅2021深度学习视频网址步骤首先查看训练网络在训练集上的准确率如果网络在训练集上的loss比较大,存在model bias或者optimization的问题model bias问题:网络模型太简单,不能很好的拟合输入数据的分布函数optimization问题:网络具有拟合输入数据分布函数的能力,但是优化参数时没有收敛到最优值,使得模型的训练集上的错误率高如何判断是model bias还是optimization的问题:首先增加网络复杂度,如果
2022-01-13 11:13:47 304
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人