MAC(Micro-Action Analysis Grand Challenge)总结

衡一的光

已于 2024-07-10 12:21:20 修改

阅读量524

点赞数 15

文章标签：深度学习人工智能计算机视觉

于 2024-07-10 11:02:36 首次发布

本文链接：https://blog.csdn.net/qq_51964119/article/details/140310062

版权

最近6月到7月这一个月参加了ACM MM 的一个比赛，感觉这次比赛还是收获良多，写一个博客来总结一下这一段时间的心路历程，也是做一个总结。

首先介绍一个这个比赛，这个就是ACMMM举办的，目的是通过建立定义明确且客观判断的挑战问题来吸引多媒体研究界，这些问题旨在运用最先进的方法并激发未来的研究方向。然后我们组选的题目是——多标签的微动作任务识别（Multi-label Mirco-Action Detection MMAD）当初选这个就是因为这个任务比较难（确实是比较难），然后参加的人也比较少，还是很有希望拿奖的，可惜了。

下面是我们比赛进度：

6月6号——6月9号：这个时间就是报了一个名，我就浅浅了解了一下这个任务，大概知道这个任务是干嘛的，那个时候我就选定pointTAD作为baseline了，现在看来是不应该的，应该再多调研一下，后面也是误导了后面的组内同学，还有就是端午节快到了，前面几天刚刚跟着组内搞完一篇论文，想放假~。

6月10号——6月16号：这个时候我们开了第一个组会，感觉就是在这里我的进度就有点慢，在6月11号其实我就把pointTAD跑起来了，但是把就是要把我们的数据集换成原来那篇论文，然后在这个上面花了很多时间，搞了我快4天，为什么呢，我上来就直接把这个数据集给换了，但是这个数据集跟原来那个数据集不一样，比如label，原来那个是1到64，而我们的是0到53，所以原来的那个文章就是需要label减一，而我们不需要，这就导致我们的label值有-1，我找了好久，后面我把那个丢到cpu上面去跑程序，才发现的问题（有些时候GPU报错不会精确定位到哪个位置），还有一个就是它的路径有问题，他在评测的时候写的是它原来那个文件的路径，而我只在那个配置文件那里改了，跑出来的结果是0，我整个人直接蒙了，我去，也是这个找了好久。。。。。。其实回想过来是没有必要的，我如果先去了解它的代码框架，跟数据集，其实这些问题在我了解的过程中是可以很快发现的。还是那个时候自己写的程序太少了，程序没有跑起来心理没底，就不敢往深了看，其实大不了自己写嘛，确实还是老师说的，多动脑，再动手，写程序很快的，我这一周写代码的时间连半天都没有。哎

6月17号——6月23号：这周其实就没有干太多事情，我想想找什么借口啊。这周就是毕业了，然后一边要忙着搬宿舍，然后好多饭局~，到处吃饭，我那个愚蠢的弟弟也来学校找我玩了，还得照看他一下，后面还得送他去长沙火车站，这周的工作就是熟悉代码，然后尝试去抽Video-Swin-Transformer的特征。

6月24号——6月31号：这周基本事情都忙的差不多了，开始慢慢进入正轨，终于把我那个弟弟送走了，结果后面还帮他参考填志愿，这周就是提取video swin trnasformer的特征，我去，这个又是一个坑，我根据它的readme.md文件，提特征，它自己写了要提光流特征，结果它自己代码又没用到，浪费我时间，不过还好是cpu上面搞的，没有话太多时间再上面，开始做了实验，之前就提过clip跟blip256的特征，这次就拿他们的特征做实验，实验开始有了一点提升，本来以为是开始，没想到是巅峰。。。。。。

7月1号到7月7号：比赛只剩下最后一周了，我们开始对pointtad和特征做各种魔改，希望它有那么一点点的提升，我这边就是对特征做各种修改，什么线性层，卷积融合提取特征，然后各种特征的排列组合，结果都没啥用。。。。。。然后搞了几天，一个学长提出来是不是模型有问题，导致我们堆特征不行，为什么呢，因为这个模型是端到端的，而我们是在它特征提取器上面提取出来的特征在堆叠我们提取的特征，这个就导致了一个问题，它进行损失值forward的时候，会对它提取的特征进行微调，那我们提取的特征就会有一个干扰的作用。哎，还是没往深处想，不然可以早点发现这个问题。然后我们就尝试把那篇论文的特征提取器去掉，然后开搞，结果，效果更差了~~~~~，只能说，一开始选错baseline了，这种端到端的模型，不能就单单堆堆特征，你去除它的特征提取器了，后面的网络也得想办法增强，或者找到更好的特征，毕竟这个特征提取器可是占据它原来网络的半壁江山，这个是我后面实验得到的，去除它的编码器之后，所有结果都差了一大截。本来事情到这里就结束了的，结果，7月7号晚上快11点的时候，我们又找到了一个工具箱，发现工具箱里面的baseline可以用，而且效果更好，然后赶紧搞，就这样子搞了一个通宵，结果代码快跑完的时候出问题了，我去，一个晚上白熬了。。。。。。要是早三天发现，应该还是有希望可以混一个奖的，可惜了。

总结：这一次最大的问题是前期的调研没有做好，还记得我上次逛博客，上面就说，写论文的前期准备工作就是要要做好调研工作和找到一个合适的baseline，而我这次这两个都没有做好，后面仔细看了OpenTAD里面的论文，它这里面的论文是temporal action detection (TAD)，而我们要做的任务是multi-label temporal action detection，这个也是一个很大的干扰项，我在搜索的时候就搜索的关键词是multi-label temporal action detection，把其余论文都排除了，这也暴露了我对各种科研工具的不熟悉，搜索信息能力还是不够，单纯的TAD其实也是可以做的，只不过预测的种类没有那么多，要是我对深度学习网络更加熟悉，估计就会查找那里的内容了，但是编码不够，就想着找一个不需要改那么多的模型，后面我要再找找有没有什么更加合适的baseline，先留一个坑。

不过最后还是觉得，参加这种比赛还是好的，这种赶DDL，效率是最高的，然后那种想办法去提升一个任务，比自己在那里光看论文的提升要大的多，最后还得感谢我的老师，要不是最后几天他还push我们做，我跟我那个同门都打算放弃了，也不能看到后面的那么多风景，还是要坚持到最后吧。