深度学习
文章平均质量分 94
fan_fan_feng
这个作者很懒,什么都没留下…
展开
-
大模型——理论基础——常用的Norm
这样的顺序对于训练更深的网络可能更稳定,因为归一化的输入可以帮助缓解训练过程中的梯度消失和梯度爆炸问题。比于LN,可以发现,不论是分母的方差和分子部分,都取消了均值计算,经作者在各种场景中实验发现,减少约 7%∼64% 的计算时间。通过上面三组实验,作者认为 Post-LN 的不稳定性部分来自于梯度消失以及初始化的时候,更新太大,陷入了局部最优,跑不出去了。都是根据模型的Encoder(N)和Decoder(M)层数计算出来的,通过如下方案,作者把模型的层数提升到了1000+。原创 2024-02-01 16:30:52 · 1823 阅读 · 0 评论 -
Ubuntu gpu tensorflow环境搭建
安装cuda1. 访问https://developer.nvidia.com/cuda-80-ga2-download-archive,下载相应的安装包(这里安装cuda 8.0,sudo apt-get install cuda-8-0,目前tensorflow 1.4 不支持9.1,注意,后面cudnn对应的版本也要改) 2. 放到服务器上面,执行一下代码: 3. 命原创 2018-01-11 09:26:21 · 257 阅读 · 0 评论 -
Contrastive Loss (对比损失)
转载:https://blog.csdn.net/autocyz/article/details/53149760Contrastive Loss (对比损失)在caffe的孪生神经网络(siamese network)中,其采用的损失函数是contrastive loss,这种损失函数可以有效的处理孪生神经网络中的paired data的关系。contrastive loss的表达式如下: L=...转载 2018-06-04 11:07:33 · 2434 阅读 · 0 评论 -
tensorflow object-detection ImportError: cannot import name 'string_int_label_map_pb2'
# From tensorflow/models/protoc object_detection/protos/*.proto --python_out=.每次使用新解压出来的object_detection文件夹时都要重新运行这一句,否则运行demo时会出现找不到string_int_label_map_pb2的问题,查看label_map_util.py文件发现from object_de...转载 2019-03-06 14:10:02 · 8145 阅读 · 0 评论