caffe && pytorch BN

最新推荐文章于 2024-04-03 18:34:38 发布

枯叶蝶KYD

最新推荐文章于 2024-04-03 18:34:38 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013548568/article/details/80928742

版权

BN在caffe中的实现

caffe BN

BN层主要有均值，方差， $\gamma$ , $\beta$ 四个参数，其中 $\gamma$ , $\beta$ 是要学习的参数一个代表的是缩放系数，也就是将分布变胖或者变瘦，一个是偏移系数，将分布左右移动。进行BN操作的主要目的是，将数据的分布归一化到非线性函数敏感的区域也即线性区，避免进入饱和区，因为一旦进入饱和区，就会造成梯度消失， $\gamma$ , $\beta$ 适当的将分布进行了变胖变瘦或者移动的这样的一个操作。

其中BN的均值，方差，beta,gamma都是变量。use_global_status只是控制 $\beta$ 和 $\gamma$ 是不是固定，如果要控制beta,gamma固定的话，在caffe里面是控制scale层的值不更新，在pytorch里面直接设置 $\beta$ 和 $\gamma$ 的requires_grad=False即可

1、use_global_status=False

训练的时候，设置use_global_status=False表示一个batch的计算的方差和均值都是来自于这个batch的数据的统计

2、use_global_status=True

测试的时候，设置use_global_status=True,表示一个batch的计算的方差和均值都是来自于整个数据集的统计，已经保存好了

caffe的bn层只是对输入做了一个归一化，没有用 $\gamma,\beta$ 进行相关的操作，所以caffe的bn要与scale层结合，用scale层来实现 $\beta,\gamma$ 的功能

pytorch BN

通过model.train()和model.eval()来决定bn层的均值方差来源

1、model.train()
均值方差统计来自于当前batch
2、model.eval()
均值和方差来自于整体数据

BN 2d

spatial bn的计算是在NxCxWXH的基础上运算的，那么是在channel的维度上进行bn操作，也即NxWxH为一组计算一个均值和方差，然后NxWxH对这一组的元素分别减去这个均值和方差，因为有C个通道，所以就会有C个均值和C个方差。假设某一层的参数通道数是C，那么所有的mean,var，weight，bias都是C维的，如图，lin_.1层有256个通道，因此所有的参数都是256维
这里写图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

枯叶蝶KYD CSDN认证博客专家 CSDN认证企业博客

码龄11年

119: 原创

7万+: 周排名

143万+: 总排名

50万+: 访问

: 等级

4467: 积分

86: 粉丝

303: 获赞

142: 评论

804: 收藏

私信

关注

热门文章

分类专栏

aa 1篇

最新评论

pytorch 正确的测试时间的代码 torch.cuda.synchronize()
YangWei_19: 为啥我测试的时候，12时间一样的？ import time import torch from sentence_transformers import SentenceTransformer import os os.environ['CUDA_VISIBLE_DEVICES'] = '0' DEVICE = "cuda" if torch.cuda.is_available() else "cpu" # DEVICE = 'cpu' embeding_path = "model/bge-base-zh-v1.5" embedding_model = SentenceTransformer(embeding_path, device=DEVICE) embedding_model.encode("我我我我我我我") # 1 start = time.time() result = embedding_model.encode("梅子黄时日日晴") end = time.time() print(f"耗时: {(end - start) * 1000} ms") # 2 torch.cuda.synchronize() start = time.time() result = embedding_model.encode("绿阴不减来时路") torch.cuda.synchronize() end = time.time() print(f"耗时: {(end - start) * 1000} ms") # 3 start = time.time() result = embedding_model.encode("小溪泛尽却山林") print(result) end = time.time() print(f"耗时: {(end - start) * 1000} ms")
pytorch 正确的测试时间的代码 torch.cuda.synchronize()
岳士杰: 被这个玩意折磨了一周，就是找不到推理时间为啥对不上号
windows10安装python-pcl
Shouldercave: 有没有3.7版的呀
pytorch 正确的测试时间的代码 torch.cuda.synchronize()
巧言花予_: 对于第三个用例，不要使用下面这个代码`print(result.shape)`输出结果，要不和第一种方法计算的时间相同
伯努利采样&&泊松采样
weixin_43763677: 请问泊松采样、伯努利采样的参考书是什么呀？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。