算法工程师岗位面试被问过的问题

1.为什么正则可以提高模型的泛化能力,L1,L2正则化的区别;
参考文档:https://zhuanlan.zhihu.com/p/36331482
基础知识:kkt条件
参考文档:https://zhuanlan.zhihu.com/p/38163970

2.随机森林参数详解,参数的重要性排序
参考文档:https://blog.csdn.net/u012559520/article/details/77336098

3.随机森林树的个数是否越多越好
不是,构建更多的树一来浪费资源,二来数量一定后模型的性能基本保持稳定,随着树的增加提升非常小。
另外,随机森林中通过引入随机抽样和随机抽列,使模型对异常点有更好的鲁棒性,模型的泛化能力更强。如果是无限颗树,那其实会抵消随机性的引入,最后的模型会是一个过拟合的模型,其泛化性能也会降低。
此外,噪音较大时,模型也会学习到更多噪音相关的信息,发生过拟合,降低泛化性能。
参考文档:https://www.jianshu.com/p/826db949195c

4.向前填充向后填充是否需要排序,如果排序该如何排序
需要,

5.缺失值填充,均值和中位数的差别
均值可以体现出整体数据,受极大值影响大,中位数不受异常值影响

6.归一化和标准化的区别
参考文档:https://www.jianshu.com/p/95a8f035c86c

7.逻辑回归是否要用标准化
如果你不用正则,那么,标准化并不是必须的,如果你用正则,那么标准化是必须的。(暗坑3)

因为不用正则时,我们的损失函数只是仅仅在度量预测与真实的差距,加上正则后,我们的损失函数除了要度量上面的差距外,还要度量参数值是否足够小。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。举例来说,我们用体重预测身高,体重用kg衡量时,训练出的模型是: 身高 = 体重*x ,x就是我们训练出来的参数。

8.提高模型泛化能力的方法有哪些
正则化,增加样本量,树模型可以剪枝,神经网络可以随机删掉隐藏层的神经元

9.如果是性别缺失可以怎样填充
可以根据用户的行为预测性别

10.异常值检测方法
先检验数据是否符合正态分布,如果符合可以用正态检验
如果不符合,可以用箱线图检验

11.CNN模型中,池化层卷积层的作用
可以看李宏毅视频
12. lstm模型中每个门的作用

13.sigmod激活函数的优点缺点以及描述
https://zhuanlan.zhihu.com/p/41894523

14.准确率,召回率

15.AUC的缺点
ROC前边比较凸,后面比较平缓的曲线,与ROC前面比较平缓,后面比较凸的两种曲线无法评估出哪个好那个坏

sql问题

一个表格里有三个班级,用sql查询出三个班级的对战表

class
a
b
c

需要注意不能出现 aa这样的组合,ab和ba的意义是一样的
新建一个temp表,增加row_number字段,temp表和自己进行关联。

别人总结的:
https://www.zhihu.com/question/24964987/answer/522733319

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值