面试之算法知识点总结_次梯度除以次梯度的模-CSDN博客

百度的双塔模型分别使用复杂的网络对用户相关的特征和广告相关的特征进行embedding，分别形成两个独立的塔，在最后的交叉层之前用户特征和广告特征之间没有任何交互。这种方案就是训练时引入更多的特征完成复杂网络离线训练，然后将得到的user embedding和item embedding存入redis这一类内存数据库中。线上预测时使用LR、浅层NN等轻量级模型或者更方便的相似距离计算方式。这也是业界很多大厂采用的推荐系统的构造方式。

https://zhuanlan.zhihu.com/p/139541282

14.k-reciprocal reranking

https://blog.csdn.net/u014453898/article/details/98790860

15.L1 loss不可导怎么办

可以使用次梯度： https://blog.csdn.net/qq_32742009/article/details/81704139

proximal algorithm: https://blog.csdn.net/luoleicn/article/details/52676378

还可以用admm

16.梯度消失如何解决

https://zhuanlan.zhihu.com/p/76772734

https://zhuanlan.zhihu.com/p/38085620

17.量化，剪枝，蒸馏知识

量化：用低精度代替高精度 https://zhuanlan.zhihu.com/p/132561405

知识蒸馏温度T能够使得不同分类的差异更为平滑 https://zhuanlan.zhihu.com/p/102038521 https://zhuanlan.zhihu.com/p/265906295

剪枝： group lasso https://www.jianshu.com/p/4ee34aea2054 https://xmfbit.github.io/2018/02/24/paper-ssl-dnn/ https://blog.csdn.net/weixin_42630613/article/details/107841886 https://www.sohu.com/a/360686883_129720

18.轻量级网络

shufflenet与mobilenet的不同在于，shufflenet采用不那么极端的group convolution(相当于采用极端的group convolution)，但是这样通道间的信息在后面就缺少了融汇，故shufflenet对group convolution产生的特征进行了随机打乱，使得通道间的信息有了更多的融汇。https://zhuanlan.zhihu.com/p/32304419

19.各种优化器

带动量的sgd：动量项实际就是历史梯度的指数平均

adagrad: 梯度还要除以梯度的模

rmsprop: 和adagrad差不多，不过除以的是加权的梯度期望的模长

adam：带有动量项的rmsprop

20.逃离鞍点的方法

带有动量性质的优化器都可以，如adagrad,adam, 优化相关方向的训练和弱化无关方向的振荡。将上个步骤中更新向量的动量项添加到当前更新向量。

21.图片去水印

可以考虑图像恢复算法，比如最简单的邻域像素加权法

https://www.cnblogs.com/lfri/p/10618417.html

22.huger loss

当参数设为1的时候即为smooth l1 loss，优点是处处可导，降低了对离群点的惩罚程度。

23.auc含义

auc是roc曲线下的面积，roc纵坐标为真阳性率(TPRate)，横坐标是假阳性率(FPRate)

TPRate的意义是所有真实类别为1的样本中，预测类别为1的比例。(TP / (TP + FN))
FPRate的意义是所有真实类别为0的样本中，预测类别为1的比例。(FP / (FP + TN)

24.cart分类树和回归树

https://www.cnblogs.com/keye/p/10564914.html

25.神经网络全初始化为0可以吗

https://www.cnblogs.com/marsggbo/p/7462682.html

26.各种激活函数优缺点

https://blog.csdn.net/lilu916/article/details/77822309

27.BN层的作用

BN的核心思想不是为了防止梯度消失或者防止过拟合，其核心是通过对系统参数搜索空间进行约束来增加系统鲁棒性，这种约束压缩了搜索空间，约束也改善了系统的结构合理性，这会带来一系列的性能改善，比如加速收敛，保证梯度，缓解过拟合等。

28.python内存管理

为何需要使用gc.collect清理内存占用 https://blog.csdn.net/weixin_46649052/article/details/113341489

https://blog.csdn.net/weixin_33889665/article/details/89992096?ops_request_misc=%25257B%252522request%25255Fid%252522%25253A%252522161181770716780271579197%252522%25252C%252522scm%252522%25253A%25252220140713.130102334.pc%25255Fall.%252522%25257D&request_

https://www.cnblogs.com/CBDoctor/p/3781078.html

29.faster rcnn中使用fpn后，如何决定在fpn的哪一层做roi pooling(或者叫做选定检测框)

https://blog.csdn.net/weixin_36060730/article/details/82798087

30.grad-cam的介绍

https://zhuanlan.zhihu.com/p/269702192

31.跟Prewitt算子相比，sobel算子为何要把1改成2

sobel算子的思想，Sobel算子认为，邻域的像素对当前像素产生的影响不是等价的，所以距离不同的像素具有不同的权值，对算子结果产生的影响也不同。一般来说，距离越远，产生的影响越小。中心点 f(x, y) 是重点考虑的，它的权重应该多一些，所以做了改进。

32.几何均值滤波更容易滤除高斯噪声，同时保留边缘

33.ohem

两种描述：1.使用了NMS(非最大值抑制)算法，先把损失按高到低排序，然后选择最高的损失，并计算其他RoI这个RoI的IoU(交叉比)，移除IoU大于一定阈值的RoI，然后反复上述流程直到选择了B/N个RoIs。

2. 正常进行一次Faster RCNN的前向传播，获得每个小片单独的损失值; 对小片们进行NMS; 对nms之后剩下的小片按损失值进行排序，然后选用损失值最大的前一部分小片当作输入再进一遍B部分通过这种方法，可以屏蔽掉loss值非常低的小片。loss值非常高的小片意味着，模型训练很多次还对这些小片有着很高的loss，那么就认为这是困难负例。所谓的线上挖掘，就是先计算loss->筛选->得到困难负例。

同时ohem还有参数共享部分，具体参考

https://zhuanlan.zhihu.com/p/77975552

https://zhuanlan.zhihu.com/p/58162337

34.LK光流法的思想比较简单，就是仅凭光流法的假设只能得到一个方程，但是却有两个未知数，于是LK光流法假设像素点(x,y)周围的m x m个点都满足(x,y)处的光流方程，这样就能得到m x m个方程，一般是一个超定方程，用最小二乘法解即可。

https://www.cnblogs.com/riddick/p/10586662.html

https://www.jianshu.com/p/4d4fa71ea1a7

35.inception各版本

v1 加宽网络

v2 加入BN

v3 把5x5换成3x3

v4 加入resnet

36.关于lstm和rnn

https://zhuanlan.zhihu.com/p/83496936

https://zhuanlan.zhihu.com/p/32085405

37. roi align

https://zhuanlan.zhihu.com/p/73113289

https://zhuanlan.zhihu.com/p/73138740

38.剪枝相关知识

剪枝最简单的方法是基于权重的大小。Li等人通过计算每个滤波器的绝对权重和来衡量其重要性。另一个实用的标准是测量ReLU函数后激活的稀疏性。Hu等人[14]认为，如果某些神经元的大部分输出为零，那么这些激活应该是多余的。

thinet https://blog.csdn.net/u014380165/article/details/77763037

network-slimming 就是对BN层要学习的两个参数中的第一个参数加限制，如果第一个参数过小，那么该channel淘汰

39.kmeans

    K-Means迭代的条件可以有如下几个：
    · 每个聚类内部元素不在变化，这是最理想的情况了。
    · 前后两次迭代，J的值相差小于某个阈值。
    · 迭代超过一定的次数。

https://www.cnblogs.com/pangxiaodong/archive/2011/08/23/2150183.html

40.one-stage和two-stage区别

one-stage网络生成的ancor框只是一个逻辑结构，或者只是一个数据块，只需要对这个数据块进行分类和回归就可以，不会像two-stage网络那样，生成的 ancor框会映射到feature map的区域（rcnn除外），然后将该区域重新输入到全连接层进行分类和回归，每个ancor映射的区域都要进行这样的分类和回归，所以它非常耗时

41. 因果卷积

https://zhuanlan.zhihu.com/p/69919158