图像篡改检测初学笔记

经过一段时间的论文积累,现在开始进行代码实践,但在看代码时总会有困惑,因此记录。 


问题1:用RRU源码试图训练CASIA时会报错,比如could not broadcast input array from shape (256,256,4) into shape (256,256)的问题

解决:需要对数据预处理部分的代码进行修改

问题2:如果对原始图像进行切割再送入模型,会面临原始图片大小与预测图片大小不一致的问题

解决:参考Bubbliiiing的视频博客网友的学习笔记

补充:其实,通常一般推荐使用直接拉伸的方式去做图像Resize,原因是增加padding填充后会对网络带来一定噪音,影响模型准确性。最重要的是保证模型训练和模型推理时的操作方式一致。

问题3:经过层层网络,最后得到的结果是灰度图(通道为1),而不是RGB图(通道为3),而原始的训练mask是灰度图还是RGB图?

思路:看图片的信息,由于每个点若位深度为8,即8bit,那么就是灰度图。若位深度为24,即RGB图。查看得知原始的mask是RGB图。

问题4:PIL、numpy、tensor的关系?

tensor和numpy是可以互相转换的。

问题5:区别RGB和BGR?

答案    

OpenCV默认使用BGR,PIL、plt的话是RGB

问题6:什么时候HWC,什么时候BCHW?

已知用PIL的Image时,需要Transpose(2,0,1)

需要解决的问题:1.如何计算各种性能?对应的代码? 2.加通道空间 3.学习HRNet和DenseNet 4.如何画ROC曲线 5.预训练问题
 


记录1:由UNet看分层提取的特征含义 链接


一些思考:双流结构不错;减少池化,因为池化会降低分辨率;需要关注注意力机制(注意力机制是自动生成权重);ASPP 模块;添加残差链接;注意模型到时候可能遇到的问题:模型发散、过拟合、欠拟合、梯度爆炸、缺少BN;基于backbone的代码怎么改,densenet为backbone不错;篡改检测和一般的语义分割不同,一般的语义分割像素点的值代表类别,猫,狗……等,而篡改检测为0和255,用于区分篡改区域和未篡改区域

通道注意力,空间注意力:链接

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值