常见机器学习、深度学习面试问题总结

最新推荐文章于 2024-08-30 23:23:04 发布

道墟散人

最新推荐文章于 2024-08-30 23:23:04 发布

阅读量357

点赞数

分类专栏： machine learning 文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36767053/article/details/108273158

版权

machine learning 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

持续更新中…

1.为什么LR需要归一化?为什么LR把特征离散化后效果更好？

归一化能提高梯度下降的速度，加快收敛速度，消除不同特征之间取值的差异性。
https://blog.csdn.net/weixin_36604953/article/details/102652160
https://blog.csdn.net/weixin_38111819/article/details/79729444
https://www.zhihu.com/question/31989952

2.L1、L2正则，为什么加入正则化项能降低过拟合？

过拟合发生的本质原因，是由于监督学习问题的不适定：数据远远少于模型空间。

为什么正则化能够避免过拟合：因为正则化就是控制模型空间的一种办法。加入正则化项实质上等于对模型加入了先验条件，缩小了模型的解空间。

L1正则化可通过假设权重w的先验分布为拉普拉斯分布，由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布，由最大后验概率估计导出。
https://blog.csdn.net/m0_38045485/article/details/82147817

3.信息增益、信息增益率、基尼指数，关系

信息熵衡量的是信息的不确定性程度，信息增益表示不确定性被降低的程度。
https://blog.csdn.net/snowdroptulip/article/details/102935227
尼指数是信息熵中﹣logP 在P = 1处一阶泰勒展开后的结果。
https://www.jianshu.com/p/75518e6a5c64

4.决策树如何处理连续特征和缺失值？

对于连续值，需要将连续特征离散化，分别计算每个划分点的信息增益，取信息增益最大的点作为划分点进行二分。
https://blog.csdn.net/u012328159/article/details/79396893
缺失值的处理可以分为训练时样本属性值缺失和测试样本特征值缺失两种情况。
https://blog.csdn.net/u012328159/article/details/79413610

5.随机森林和GBDT的区别?

烂大街的问题，可以考虑多思考底层方面的差异。
https://blog.csdn.net/login_sonata/article/details/73929426

6.GBDT和XGB的区别？

https://www.zhihu.com/question/41354392

7.XGB怎么调参？

https://www.jianshu.com/p/7aab084b7f47

8.贝叶斯优化

https://www.cnblogs.com/marsggbo/p/9866764.html
https://zhuanlan.zhihu.com/p/76269142

9.K-means算法

https://www.jianshu.com/p/fc91fed8c77b
https://blog.csdn.net/sinat_30353259/article/details/80887779

10.RF、GBDT、XGBoost特征重要性计算

https://blog.csdn.net/u014035615/article/details/79612827

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。