计算机视觉方向相关前言知识了解

最新推荐文章于 2025-04-21 17:06:03 发布

竹篓有个天

最新推荐文章于 2025-04-21 17:06:03 发布

阅读量326

点赞数

分类专栏：深度学习文章标签：自动驾驶机器学习人工智能

本文链接：https://blog.csdn.net/OpenSceneGraph/article/details/120274666

版权

深度学习专栏收录该内容

36 篇文章

订阅专栏

1.2021 cvpr 计算机视觉 4大方向两大行业

/1 使用对抗性例子学习

比较经典的例子是一张熊猫的照片+0.7%的干扰矩阵，生成的图片在肉眼看来依旧是熊猫，但是系统会判定为长臂猿。因此需要使用对抗性例子学习以增强迁移学习能力，提高模型性能。

/2 自监督和对比学习

ML方法只依赖提供的标签/奖励，就会导致使用样本多，收敛性差，且针对特定任务需要设计对应的网络结构。自监督是指使用数据本身提供监督，通过对比正负样本，但是对数据要求较高。

/3 视觉语言模型

使用图像+文字对形式，应用在字幕等场景中，但是目前只针对英文，对于其他多语种存在较大问题。

/4 有限数据学习

当前很多方向的数据集很难收集，就可以使用弱监督/迁移学习，但通常实际使用在工业中，性能会降低。

目前计算机视觉主要有两大行业：

/1 零售

通过跟踪、跟踪顾客动向、检测货品的保留/取走实现自助结账

/2 自动驾驶

（环境）感知：利用车载摄像头、激光雷达、毫米波雷达等传感器，实时检测环境变化

决策（与规划）：利用高精地图，联网

（控制与）执行

2.网络压缩

/1 剪枝丢弃了不严重影响模型表现的权重

/2 模型量化将网络中连续取值或离散取值的浮点型参数（权重或张量）线性映射为定点近似（int8 / uint8）的离散值，取代原有的 float32 格式数据，同时保持输入输出为浮点型

3.LSTM RNN GRU

/1 LSTM 长短时记忆网络

由输入门、遗忘门、输出门和一个cell组成。第一步是决定从cell状态中丢弃什么信息，然后在决定有多少新的信息进入到cell状态中，最终基于目前的cell状态决定输出什么样的信息。

/2 RNN 循环神经网络

一种反馈神经网络，权重共享，内部反馈连接+前馈连接

/3 GRU

由重置门和更新门组成，其输入为前一时刻隐藏层的输出和当前的输入，输出为下一时刻隐藏层的信息。重置门用来计算候选隐藏层的输出，其作用是控制保留多少前一时刻的隐藏层。更新门的作用是控制加入多少候选隐藏层的输出信息，从而得到当前隐藏层的输出。

4. RNN相关算法 YOLO 目标检测

确定Bounding Box

/1 RPN 区域生成网络

/2 ss Selective Search 利用滑动窗口

分类器：

SVM支持向量机 softmax分类

5.self-attention 公式

6. 牛客网深度学习题目

【机器学习/算法工程师面试宝典】学习说明_互联网校招面试真题面经汇总_牛客网

/1 神经网络为啥用交叉熵。

通过神经网络解决多分类问题时，最常用的一种方式就是在最后一层设置n个输出节点，无论在浅层神经网络还是在CNN中都是如此，比如，在AlexNet中最后的输出层有1000个节点，而即便是ResNet取消了全连接层，也会在最后有一个1000个节点的输出层。

一般情况下，最后一个输出层的节点个数与分类任务的目标数相等。假设最后的节点数为N，那么对于每一个样例，神经网络可以得到一个N维的数组作为输出结果，数组中每一个维度会对应一个类别。在最理想的情况下，如果一个样本属于k，那么这个类别所对应的的输出节点的输出值应该为1，而其他节点的输出都为0，即[0,0,1,0,….0,0]，这个数组也就是样本的Label，是神经网络最期望的输出结果，交叉熵就是用来判定实际的输出与期望的输出的接近程度。

/2 CycleGAN 原理

CycleGAN其实就是一个A→B单向GAN加上一个B→A单向GAN。两个GAN共享两个生成器，然后各自带一个判别器，所以加起来总共有两个判别器和两个生成器。一个单向GAN有两个loss，而CycleGAN加起来总共有四个loss。

/3 训练 GAN 的时候有没有遇到什么问题

遇到GAN训练不稳定问题。通过Wasserstein GAN来解决这个问题。WGAN本作引入了Wasserstein距离，由于它相对KL散度与JS散度具有优越的平滑特性，理论上可以解决梯度消失问题。

JS散度，由于随机生成分布很难与真实分布有不可忽略的重叠以及JS散度的突变特性，使得生成器面临梯度消失的问题；KL散度，又要最大化其JS散度，相互矛盾，导致梯度不稳定，而且KL散度的不对称性使得生成器宁可丧失多样性也不愿丧失准确性，导致collapse mode现象。