Debug pytorch预测问题

YueTann

已于 2023-03-24 15:30:46 修改

阅读量359

点赞数

文章标签： pytorch 人工智能 python

于 2022-08-25 15:46:39 首次发布

本文链接：https://blog.csdn.net/weixin_38812492/article/details/126526417

版权

由于线上环境是对单个文件遍历预测结果并一起保存

首先遇到的是模型加载问题

RuntimeError: /home/teletraan/baseline/competition/mobile/weights/resnet18_fold1_seed3150.pth is a zip archive (did you mean to use torch.jit.load()?)

主要是因为版本问题，有时候跑着就忘记激活环境了。所以选择正确环境的正确版本torch即可

第一个问题是遍历的顺序，os.listdir会按照字母顺序，也就是1，10，100，2这样的顺序预测，因此需要遍历先按照大小排序

files = [f for f in os.listdir(d_path) if f[0].isdigit()]
files.sort(key=lambda x: int(str(x).split('.')[0]))

第一个问题解决后，线上线下得到统一，有一个没那么差的分数了。但是之后，发现又出现问题了，分数又变低了。

关键是和训练一起的每一个epoch验证结果是正确的，而单独拿出来测试得到的结果很低。
首先检查了顺序没问题，甚至多分类模型里输出的prob似乎都是更准确的，问题就更奇怪了。

然后明确问题出在了这一句

out1 = out.sigmoid().detach().cpu().numpy()

还是有点离谱，因为很多比较大的数经过sigmoid之后都被认为是1了，也就是计算精度的问题。我以为大的sigmoid还是比较大，sigmoid这句就没有管，没想到很多比较大的数都被认为是1了。此时选择argmax类别就会选比较小的那个类，导致多了很多错误。之前试过一次没有sigmoid，也没注意到影响。后期，放大了影响

也是自己基础不牢固导致的

未来48步的误差

在这里插入图片描述
可以看出后期有一个sine的形状，也就是某个周期没有把握住。再进行一个细分

猜测和更细的时间有关

00:00的误差

在这里插入图片描述
0点的预测就非常有意思，未来8个小时，也就是到了6小时以后误差开始显著增大。也就是第二天白天之后的误差开始变大。变大的这个误差可以更细化一些，例如日期，类别

08:00的误差

在这里插入图片描述
可以看出来这个误差更大，早上8点预测未来8小时，反而有更大的周期没有把握住。因为重点其实是这个早上8点的误差，至于为什么有这个现象，我们可以更细的看一下单个item表现

true1 = trues.loc[(trues['hour'] == hour) & (trues['item_id'] == 2050), value_col]

以下为item2050在线下预测的一周
在这里插入图片描述
可以看的出来，超过4的几个点是item在不同天轮流出现了同样的模式，也就导致误差非常大。48是未来8小时，不同天出现了相同模式不同偏差

再看item5，似乎又比较正常。既然如此，就可以分析不同item，分别在三个时段的误差。
在这里插入图片描述
item 1004和1003一个模式的

似乎都是app_id 157

细看1004

是周末和假期更低，工作日更高。所以一般是5个一个周期，但是五月因为劳动节。5月的5号、6号是工作日，7、8作为原本的周末，虽然7号调休了。4月有端午节

item2008

看起来是，周末的类型
似乎不是周末的类型。而是周中有几天异常

item1001

平时和周末比较不一样,app_id