算法上的创新点大搜罗

最新推荐文章于 2024-04-19 20:36:43 发布

库页

最新推荐文章于 2024-04-19 20:36:43 发布

阅读量3.9k

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/daniaokuye/article/details/104569879

版权

深度学习专栏收录该内容

61 篇文章

订阅专栏

本文分享了在AI算法优化过程中的实践经验，包括L2loss的改进、长尾分布softmax设计、数据集制作、暗光图像处理及关键点检测的挑战与解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

最近离职在找工作，开始以为介绍下做的工作，然后大家过来评估下，然后可以开心的继续炼丹以及顺便做做工程。然鹅，我发现好多人更关注“遇到了哪些难题，咋解决的”这种情况，被问的我一脸懵逼。我自始至终没有太关注这些点，不管怎么说，还是总结一下好了。

L2 loss的修改

年龄回归，当时试验了许多loss后，发现l2比较好使。但是年龄的测试和训练是不一致的：测试的时候追求的是cs2（年龄差小于2认为是positive时的比例），也就是l2对年龄差为1时，会开始降低惩罚力度；测试的时候扩展到2了。其实对于数据集的数据标注的话，是实际年龄统计得到的标注；自己手头的数据呢，又是根据目视年龄进行的标注。这种数据分布上也是有差的。所以这儿是有修改soomth l1变成了smooth区间定长的smooth l1.目的是统一训练测试的平均，同时也降低一定的惩罚力度。
在测试集提升最大接近1%。其实当时看到了数值上有明显的差异了，至于具体多少是没有去迭代几次求平均的。

长尾分布的softmax

在设计阶段，所以没有什么好讲的，因为不知道最后能不能work。
想法就是针对优势类别训练，然后逐渐添加非优势类，非优势类逐渐扩展最近的优势类类别：分错了只对最近的多个优势类之间做一些惩罚，而不是全部。
概况起来的思想就是：反正这些类别的种类和样本数目都是有限的，也就是对提升其他类的泛化能力可能有限，既然如此，就独善其身。跟最近的几个撇清关系就好了。
数值上相当于不会惩罚以改变整体的分布情况。有种嵌入几个类别的感觉

数据集的制作

制作一个比coco更大的数据集用作pretrain，也是稍微有点意思的事情。组长的idea，我是执行者和设计者，使用OID和Object365合起来，标注人脸，同时兼顾一些人脸属性的分布。中间也是有一些小问题：多个属性的预测、选择、均衡。评价指标的筛选到最后的制定。

两个失败的尝试

暗光的图片处理

背景是很昏暗的时候，人脸检测和识别网络基本上就不work了。当时最直接的想法是直方图拉伸，基本上没效果，甚至mAP还下降了。
一个想法就是有灰度上的阶跃，边界有形成不合理的梯度。当时就做了一个冲击函数，找到拉伸后图片边缘，和梯度值一起，做了空间和强度上的边缘的缓慢过渡。
结果证明也不怎么好，估计到最后还是分布的原因。想继续做平均脸的kl散度来做一个固定形式的拉伸，也就是直方图匹配。不过检测那边也不怎么样，而且眼睛、眼镜有时候会有强反光。这个实验就停了。
输入端做处理的实验基本上是失败的。

关键点的抖动的后处理

背景是人脸关键点检测时会在人脸质量差、人脸大角度的时候出现崩溃的结果。当时的想法是使用关键点的时间序列，看有没有特征直接可以预测哪些结果是错的。然后做了比如三个角度值的变化曲线，然后平滑得到结果。
有几个问题是始终解决不了的：1是正常情况下也抖，抖的幅度容易受到不可见的因素干扰。2. 环境很差的时候，或者大侧脸的时候，反而出现关键点相对来说空间位置很稳定。也就是模型彻底预测失败了，然后给出他认为的位置点，而且可能这个位置点对应特征在特征分布上占据了相当一部分。3. 抖动的那几帧图片使用平滑后的结果来评价，跟他们想近的附近几帧也会被连带着排除掉，是不能保证不抖动帧的recall的。
最后还是放弃了这种模式识别的方法。

更早期的实验

大卷积核的应用

想用大卷积核是因为：1. 感受野不完全遵从两个33等价一个55.每个位置被计算的次数是不一致的，对中心的更偏爱一点。2. 大卷积核使用NIN的形式也能有多个小卷积核的非线性特性，或者其后直接使用11加relu的形式。3. 计算量，这是我的创新的地方吧。
用细粒度的剪枝，把卷积核剪到固定的参数量，然后拿着这些空间位置的参数重写一个im2col。
总起来说，这是一个比较鸡肋的创新吧：有论文提出的global cov是用一个非常大的k做1k和k*1的堆叠卷积；以及有论文直接提到的一种对角kernel的卷积方式，形式上等同于单位矩阵，实现上是mobilenet那种depth-wise卷积。实用性和创新性都不如后二者。

有损的大batchsize

其实从想出来到目前为止，这个想法受到了有两个根本性的质疑：1. 梯度更新；2. 有无必要
背景就是想用更大的batchsize。
然后做法就是固定住top部分layers的梯度不更新，等迭代几次之后再拿累积的梯度的平均再更新这部分
质疑1：这样的梯度，面对的网络并不是当初被计算得到的状态。所以这该如何解释。
质疑2：是否可以通过更小的网络，更小的输入来获得。
这两点质疑都很难从正面回答，不过有个相类似的idea是做分布式计算的时候的梯度更新，怎么做处理减少带宽占用的论文。里面提到的处理方法是截留梯度，等累计梯度达到某个限度后在吧sum传过去，梯度本质上是一个加的过程，然后传过去的也是这样的一个状态。这篇论文在nlp上验证通过，没有在图片上测试。
鉴于当时的结果只是可收敛，所以也没有必要提了。