【转】torchvision.transforms.Normalize()解释

原文:https://blog.csdn.net/xys430381_1/article/details/85724668
也许你经常会在PIL.Image转为tensor时看到这么一段数据预处理代码:

im_tfs = tfs.Compose([
        tfs.ToTensor(),
        tfs.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ])
    
data = im_tfs(data)

下面就是关于torchvision.transforms.Normalize()的解释:

torchvision.transforms.Normalize()中的mean和std参数做什么用呢? 疑问1:
按照我的理解,归一化就是要把图片3个通道中的数据整理到[-1, 1]区间。 x = (x - mean(x))/stddev(x)
只要输入数据集x确定了,mean(x)和stddev(x)也就是确定的数值了,为什么Normalize()函数还需要输入mean和std的数值呢?

疑问2: RGB单个通道的值不是[0, 255]吗?所以一个通道的均值应该在127附近才对。
如果Normalize()函数按照下面的版式去计算 x = (x - mean)/std 因为RGB是[0,
255],算出来的x就不可能落在[-1, 1]区间了。

疑问3: 可我看很多代码里面是这样的: torchvision.transforms.Normalize(mean=[0.485,
0.456, 0.406], std=[0.229, 0.224, 0.225]) 这一组值是怎么来的? 为什么这三个通道的均值都是小于1的值呢?

1、 mean 和 std
肯定要在normalize之前自己先算好再传进去的,不然每次normalize程序就得把所有的图片都读取一遍算这两个数…

2、有两种情况: a)如果是imagenet数据集,那么ImageNet的数据在加载的时候就已经转换成了[0, 1].
b)应用了torchvision.transforms.ToTensor,其作用是 ( Converts a PIL Image or
numpy.ndarray (H x W x C) in the range [0, 255] to a torch.FloatTensor
of shape (C x H x W) in the range [0.0, 1.0] )

3、[0.485, 0.456, 0.406]这一组平均值是从imagenet训练集中抽样算出来的。

上面疑问2的b情况就解释了文章开头的那段代码。

  • 8
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值