深度学习算法工程师面试知识点总结（二）

最新推荐文章于 2024-04-23 21:25:26 发布

计算机视觉与OpenCV

最新推荐文章于 2024-04-23 21:25:26 发布

阅读量525

点赞数 2

分类专栏：深度学习计算机视觉实战文章标签： tensorflow 深度学习人工智能计算机视觉面试

本文链接：https://blog.csdn.net/lxiao428/article/details/121507438

版权

深度学习计算机视觉实战专栏收录该内容

51 篇文章 19 订阅

订阅专栏

这是算法工程师面试知识点总结的第二篇，有兴趣的朋友可以看看第一篇的内容：
深度学习算法工程师面试知识点总结（一）

添加微信study428，进入微信群，有问题可以及时交流沟通；
关注公众号”计算机视觉与OpenCV“，硬货知识常分享；
加入QQ群”187042448“获取深度学习相关的资料。
在这里插入图片描述

笔记内容分享如下：

9、空间金字塔池化（Spatial Pyramid Pooling）
空间金字塔池化可以将任意尺度的图像卷积特征转化为相同维度，这不仅可以让CNN处理任意尺度的图像，还能避免cropping（裁剪）和warping（扭曲）操作，导致一些信息的丢失。一般的卷积神经网络都需要固定输入图像大小，这是因为全连接层的输入需要固定输入维度，但在卷积操作时并没有对图像大小有限制，所以作者提出了空间金字塔池化方法，先让图像进行卷积操作，然后使用SPP方法转化成维度相同的特征，最后输入到全连接层。
空间金字塔池化是将一个pooling过程变成了多个尺度的pooling。用不同大小的池化窗口作用于卷积特征，这样就可以得到1X1，2X2，4X4的池化结果。
SPP方法其实就是一种使用多个尺度的池化方法，可以获取图像中的多尺度信息。在卷积神经网络中加入SPP后，可以让CNN处理任意大小的输入，这让模型变得更加的灵活。

10、1x1卷积作用：实现信息的跨通道交互和整合；对卷积核通道数进行降维和升维，减小参数量。

11、Xception网络引入了深度可分离卷积，包括depthwise(DW)和pointwise(PW)两个部分，DW是2D卷积，一个卷积核与输入卷积不改变通道数量，PW部分使用1x1的卷积改变通道数。MobileNet中也有使用。

12、使用padding进行的卷积为宽卷积，不适用则为窄卷积。

13、learning-rate 学习率：学习率越小，模型收敛时间越长，但是可以逐步稳健的提高模型精确度。一般初始设置为0.1，然后每次除以0.2或者0.5来改进，得到最终值；
batch-size 样本批次容量，影响模型的优化程度和收敛速度，一般使用32或64，在计算资源允许的情况下，可以使用大batch进行训练。
weight-decay 权重衰减，用来在反向传播中更新权重和偏置，一般设置为0.005或0.001；L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化（更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好）。
epoch-number 训练次数：包括所有训练样本的一个正向传递和一个反向传递，训练至模型收敛即可；（注：和迭代次数iteration不一样）总之，不是训练的次数越多，测试精度就会越高，会有各种原因导致过拟合。

14、epoch 使用训练集的全部数据对模型进行一次完整的训练
batch 每次训练使用数据集的一小部分（batchsize）对模型进行一次的训练
iteration 使用一个batchsize大小的数据对模型进行一次参数更新的过程

15、LSTMs有三种类型的门：遗忘门（forget gate），输入门（input gate）以及输出门（output gate）。遗忘门（forget gate）是用来决定哪个cells的状态将被丢弃掉。输入门（input gate）决定哪些cells会被更新。输出门（output gate）控制了结果输出. 因此当前输出依赖于cells状态以及门的过滤条件。
bidirectional LSTMs有两层LSTMs。一层处理过去的训练信息，另一层处理将来的训练信息。在bidirectional LSTMs中，通过前向LSTMs获得前向隐藏状态，后向LSTMs获得后向隐藏状态，当前隐藏状态是前向隐藏状态与后向隐藏状态的组合。

16、GAN由生成器和判别器组成，生成器负责生成样本，判别器负责判断生成器生成的样本是否为真。生成器要尽可能迷惑判别器，而判别器要尽可能区分生成器生成的样本和真实样本。

17、GAN最为常见的应用就是图像翻译。图像翻译指从一副图像到另一副图像的转换。常见的图像翻译任务有：图像去噪、图像超分辨、图像补全、风格迁移。
算法如pix2pix（图像） vid2vid（视频）
相比传统的模型，GAN存在两个不同的网络，而不是单一的网络并且训练方式采用的是对抗训练方式，GAN中G的梯度更新信息来自判别器D，而不是来自数据样本。
GAN的缺点：不适合处理离散形式的数据，比如文本。

18、目标检测需要确定类别和位置。

最后分享一本比较适合入门和找工作的实战类图书《深度学习计算机视觉实战》，新书上市不久，内容和当下很贴合。

《深度学习计算机视觉实战》一书由刘东研究员和肖铃合作完成，该书从算法导读到模型训练，到模型部署一站式搞定，书中案例注释详细，均已通过运行验证。该书包括4个部分：
第一部分（1 ~ 2章）深度学习和计算机视觉的基础和算法讲解；
第二部分（3 ~ 6章）传统图像处理算法的案例讲解；
第三部分（7-11章）计算机视觉方向的案例讲解；
第四部分（12~13章）Tensorflow Lite讲解（源码分析、模型优化、模型转换等）以及使用Tensorflow Lite在PC端和移动端的部署案例讲解，本书可以为计算机视觉入门的读者和想要对模型进行工程部署的读者提供参考与帮助。
京东链接：https://u.jd.com/rwk3HPT

计算机视觉与OpenCV

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习算法工程师面试知识点总结（二）

这是算法工程师面试知识点总结的第二篇，有兴趣的朋友可以看看第一篇的内容：深度学习算法工程师面试知识点总结（一）添加微信study428，进入微信群，有问题可以及时交流沟通；关注公众号”计算机视觉与OpenCV“，硬货知识常分享；加入QQ群”187042448“获取深度学习相关的资料。笔记内容分享如下：9、空间金字塔池化（Spatial Pyramid Pooling）空间金字塔池化可以将任意尺度的图像卷积特征转化为相同维度，这不仅可以让CNN处理任意尺度的图像，还能避免cropping（裁
复制链接

扫一扫