鉴于上一篇并未完结,其中视频帧数是个问题,如果想要边读边测,那么只有固定规则了,不能说idx是变化的了。
考虑到如果分割完视频帧,那么势必要将图片存储起来,因为有的视频长,内存可能会占满,因此不如读取一些帧就做个测试,不是说16帧来个测试吗??但这种预测的速度肯定慢,因为无论是多少帧,只要是大于3帧的,结果都会变成6*16帧,那么这个数据进入模型进行推断时间真的很慢,没有直接的16帧来的快,所以并不认为TSM是完美的。
所以请不要随意进行上采样,请从网络结构出发,参数越少,速度越快,效果越好,这才是终极目标。
鉴于上面提及的DataLoader很令人讨厌,如今终于破解。直接来个for循环就解决了,以后遇到类似的也可解决了。
经查看,发现进行transform的图片个数都是32个,难道这就是16*2的由来??
下面是不同帧数的视频最终选取的idx,当然选取规则可见,但我想固定,以后固定或者随机设