数据集下载踩坑及md5检验

Camelyon16数据集提供百度云下载途径,于是充了会员把数据集下载了。问题是多个大文件下载很容易出现文件受损的情况,这次就遇到了,折腾了好几天。教训是,下载大文件一定要确保文件没问题,不然之后查问题很麻烦的。作为用户,使用前校验文件是否受损;作为提供者,在提供数据集时额外提供一份md5的清单,规范操作。

建议使用md5进行文件完整性的校验。Linux下使用md5sum命令,Windows下使用certutil -hashfile filename MD5。百度云的原始文件的md5值可以在未下载的情况下进行查看,借鉴知乎问题https://www.zhihu.com/question/29785347,建议Windows用户使用https://github.com/GangZhuo/BaiduPCS_NET/releases,亲测md5值是准确的。

这次踩坑,表现为ASAP api在读取部分图像的某些patch时会出现全255像素值的情况,而ASAP软件里查看缺没有问题。猜想应该是tif图像的文件头信息受损,ASAP软件可能无视文件头,而api受到文件头影响而无法正常读取;像素值应该没有受损,不然软件里查看应该也会有问题。保险起见,建议重新下载文件。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值