1.2021 cvpr 计算机视觉 4大方向 两大行业
/1 使用对抗性例子学习
比较经典的例子是一张熊猫的照片+0.7%的干扰矩阵,生成的图片在肉眼看来依旧是熊猫,但是系统会判定为长臂猿。因此需要使用对抗性例子学习以增强迁移学习能力,提高模型性能。
/2 自监督和对比学习
ML方法只依赖提供的标签/奖励,就会导致使用样本多,收敛性差,且针对特定任务需要设计对应的网络结构。自监督是指使用数据本身提供监督,通过对比正负样本,但是对数据要求较高。
/3 视觉语言模型
使用图像+文字对形式,应用在字幕等场景中,但是目前只针对英文,对于其他多语种存在较大问题。
/4 有限数据学习
当前很多方向的数据集很难收集,就可以使用弱监督/迁移学习,但通常实际使用在工业中,性能会降低。
目前计算机视觉主要有两大行业:
/1 零售
通过跟踪、跟踪顾客动向、检测货品的保留/取走 实现自助结账
/2 自动驾驶
(环境)感知:利用车载摄像头、激光雷达、毫米波雷达等传感器,实时检测环境变化
决策(与规划):利用高精地图,联网
(控制与)执行
2.网络压缩
/1 剪枝 丢弃了不严重影响模型表现的权重
/2 模型量化 将网络中连续取值或离散取值的浮点型参数( 权重或张量)线性映射为定点近似(int8 / uint8)的离散值,取代原有的 float32 格式数据,同时保持输入输出为浮点型
3.LSTM RNN GRU
/1 LSTM 长短时记忆网络
由输入门、遗忘门、输出门和一个cell组成。第一步是决定从cell状态中丢弃什么信息,然后在决定有多少新的信息进入到cell状态中,最终基于目前的cell状态决定输出什么样的信息。
/2 RNN 循环神经网络
一种反馈神经网络,权重共享,内部反馈连接+前馈连接
/3 GRU
由重置门和更新门组成,其输入为前一时刻隐藏层的输出和当前的输入,输出为下一时刻隐藏层的信息。重置门用来计算候选隐藏层的输出,其作用是控制保留多少前一时刻的隐藏层。更新门的作用是控制加入多少候选隐藏层的输出信息,从而得到当前隐藏层的输出。
4. RNN相关算法 YOLO 目标检测
确定Bounding Box
/1 RPN 区域生成网络
/2 ss Selective Search 利用滑动窗口
分类器:
SVM支持向量机 softmax分类
5.self-attention 公式
6. 牛客网 深度学习题目
【机器学习/算法工程师面试宝典】学习说明_互联网校招面试真题面经汇总_牛客网
/1 神经网络为啥用交叉熵。
通过神经网络解决多分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此,比如,在AlexNet中最后的输出层有1000个节点,而即便是ResNet取消了全连接层,也会在最后有一个1000个节点的输出层。
一般情况下,最后一个输出层的节点个数与分类任务的目标数相等。假设最后的节点数为N,那么对于每一个样例,神经网络可以得到一个N维的数组作为输出结果,数组中每一个维度会对应一个类别。在最理想的情况下,如果一个样本属于k,那么这个类别所对应的的输出节点的输出值应该为1,而其他节点的输出都为0,即[0,0,1,0,….0,0],这个数组也就是样本的Label,是神经网络最期望的输出结果,交叉熵就是用来判定实际的输出与期望的输出的接近程度。
/2 CycleGAN 原理
CycleGAN其实就是一个A→B单向GAN加上一个B→A单向GAN。两个GAN共享两个生成器,然后各自带一个判别器,所以加起来总共有两个判别器和两个生成器。一个单向GAN有两个loss,而CycleGAN加起来总共有四个loss。
/3 训练 GAN 的时候有没有遇到什么问题
遇到GAN训练不稳定问题。通过Wasserstein GAN来解决这个问题。WGAN本作引入了Wasserstein距离,由于它相对KL散度与JS散度具有优越的平滑特性,理论上可以解决梯度消失问题。
JS散度,由于随机生成分布很难与真实分布有不可忽略的重叠以及JS散度的突变特性,使得生成器面临梯度消失的问题;KL散度,又要最大化其JS散度,相互矛盾,导致梯度不稳定,而且KL散度的不对称性使得生成器宁可丧失多样性也不愿丧失准确性,导致collapse mode现象。
7. 卷积核输出维度计算
参数:W:宽; H:高; D:深度;
K:卷积核的个数; F:卷积核的大小; S:步长; P:用0填充
卷积后输出:W或H=[(输入大小-卷积核大小+2*P)/步长] +1.
不能整除时,一般去掉小数部分取整,如4.5,则取4