算法工程师岗位面试被问过的问题

最新推荐文章于 2024-05-14 01:29:21 发布

菜鸟笔迹

最新推荐文章于 2024-05-14 01:29:21 发布

阅读量437

点赞数

分类专栏：机器学习面试题文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_39400863/article/details/105173885

版权

机器学习面试题专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.为什么正则可以提高模型的泛化能力，L1,L2正则化的区别；
参考文档：https://zhuanlan.zhihu.com/p/36331482
基础知识：kkt条件
参考文档：https://zhuanlan.zhihu.com/p/38163970

2.随机森林参数详解，参数的重要性排序
参考文档：https://blog.csdn.net/u012559520/article/details/77336098

3.随机森林树的个数是否越多越好
不是，构建更多的树一来浪费资源，二来数量一定后模型的性能基本保持稳定，随着树的增加提升非常小。
另外，随机森林中通过引入随机抽样和随机抽列，使模型对异常点有更好的鲁棒性，模型的泛化能力更强。如果是无限颗树，那其实会抵消随机性的引入，最后的模型会是一个过拟合的模型，其泛化性能也会降低。
此外，噪音较大时，模型也会学习到更多噪音相关的信息，发生过拟合，降低泛化性能。
参考文档:https://www.jianshu.com/p/826db949195c

4.向前填充向后填充是否需要排序，如果排序该如何排序
需要，

5.缺失值填充，均值和中位数的差别
均值可以体现出整体数据，受极大值影响大，中位数不受异常值影响

6.归一化和标准化的区别
参考文档：https://www.jianshu.com/p/95a8f035c86c

7.逻辑回归是否要用标准化
如果你不用正则，那么，标准化并不是必须的，如果你用正则，那么标准化是必须的。（暗坑3）

因为不用正则时，我们的损失函数只是仅仅在度量预测与真实的差距，加上正则后，我们的损失函数除了要度量上面的差距外，还要度量参数值是否足够小。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。举例来说，我们用体重预测身高，体重用kg衡量时，训练出的模型是：身高 = 体重*x ，x就是我们训练出来的参数。

8.提高模型泛化能力的方法有哪些
正则化，增加样本量，树模型可以剪枝，神经网络可以随机删掉隐藏层的神经元

9.如果是性别缺失可以怎样填充
可以根据用户的行为预测性别

10.异常值检测方法
先检验数据是否符合正态分布，如果符合可以用正态检验
如果不符合，可以用箱线图检验

11.CNN模型中，池化层卷积层的作用
可以看李宏毅视频
12. lstm模型中每个门的作用

13.sigmod激活函数的优点缺点以及描述
https://zhuanlan.zhihu.com/p/41894523

14.准确率，召回率

15.AUC的缺点
ROC前边比较凸，后面比较平缓的曲线，与ROC前面比较平缓，后面比较凸的两种曲线无法评估出哪个好那个坏

sql问题

一个表格里有三个班级，用sql查询出三个班级的对战表

class
a
b
c

需要注意不能出现 aa这样的组合，ab和ba的意义是一样的
新建一个temp表，增加row_number字段，temp表和自己进行关联。

别人总结的：
https://www.zhihu.com/question/24964987/answer/522733319

菜鸟笔迹

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
算法工程师岗位面试被问过的问题

https://www.zhihu.com/question/24964987/answer/5227333191.为什么正则可以提高模型的泛化能力，L1,L2正则化的区别；2.随机森林参数详解，参数的重要性排序https://blog.csdn.net/u012559520/article/details/773360983.随机森林树的个数是否越多越好https://www.jian...
复制链接

扫一扫

专栏目录