常见机器学习、深度学习面试问题总结

持续更新中…

1.为什么LR需要归一化?为什么LR把特征离散化后效果更好?

归一化能提高梯度下降的速度,加快收敛速度,消除不同特征之间取值的差异性。
https://blog.csdn.net/weixin_36604953/article/details/102652160
https://blog.csdn.net/weixin_38111819/article/details/79729444
https://www.zhihu.com/question/31989952

2.L1、L2正则,为什么加入正则化项能降低过拟合?

过拟合发生的本质原因,是由于监督学习问题的不适定:数据远远少于模型空间

为什么正则化能够避免过拟合:因为正则化就是控制模型空间的一种办法。加入正则化项实质上等于对模型加入了先验条件,缩小了模型的解空间。

3.信息增益、信息增益率、基尼指数,关系

信息熵衡量的是信息的不确定性程度,信息增益表示不确定性被降低的程度。
https://blog.csdn.net/snowdroptulip/article/details/102935227
尼指数是信息熵中﹣logP 在P = 1处一阶泰勒展开后的结果。
https://www.jianshu.com/p/75518e6a5c64

4.决策树如何处理连续特征和缺失值?

对于连续值,需要将连续特征离散化,分别计算每个划分点的信息增益,取信息增益最大的点作为划分点进行二分。
https://blog.csdn.net/u012328159/article/details/79396893
缺失值的处理可以分为训练时样本属性值缺失和测试样本特征值缺失两种情况。
https://blog.csdn.net/u012328159/article/details/79413610

5.随机森林和GBDT的区别?

烂大街的问题,可以考虑多思考底层方面的差异。
https://blog.csdn.net/login_sonata/article/details/73929426

6.GBDT和XGB的区别?

https://www.zhihu.com/question/41354392

7.XGB怎么调参?

https://www.jianshu.com/p/7aab084b7f47

8.贝叶斯优化

https://www.cnblogs.com/marsggbo/p/9866764.html
https://zhuanlan.zhihu.com/p/76269142

9.K-means算法

https://www.jianshu.com/p/fc91fed8c77b
https://blog.csdn.net/sinat_30353259/article/details/80887779

10.RF、GBDT、XGBoost特征重要性计算

https://blog.csdn.net/u014035615/article/details/79612827

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值