机器学习面试题总结

幼稚的人呐

已于 2022-06-21 15:56:39 修改

阅读量137

点赞数

分类专栏：面试准备文章标签：机器学习人工智能

于 2022-06-14 23:13:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liujiesxs/article/details/125288033

版权

面试准备专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文总结了机器学习面试中的常见问题，包括TFIDF的优缺点、相似度计算方法、朴素贝叶斯的特性、逻辑回归与朴素贝叶斯的区别、线性回归与逻辑回归的差异、梯度下降策略、AUC的含义、模型参数控制及过拟合的解决方案等核心知识点。

摘要由CSDN通过智能技术生成

文章目录

1.TFIDF优点和缺点

2.相似度计算有哪些方法（Jaccard、欧氏距离、Cosine）

3.朴素贝叶斯算法，对缺失值、异常值是否敏感

4.朴素贝叶斯为什么适合增量计算

5.朴素贝叶斯的优缺点

6.逻辑回归和朴素贝叶斯的区别？

逻辑回归是判别模型，朴素贝叶斯是生成模型
- 判别模型：逻辑回归是直接对P(Y|X)直接建模、学习和求解，是在给定观测变量值前提下目标变量的条件概率模型
- 生成模型：所有的变量是全概率模型

7.线性回归和逻辑回归的区别？

线性回归样本的输出都是连续值，逻辑回归的输出只能取0和1
拟合函数也有区别：
- 线性回归：f(x) = θ1x1 + θ2x2 + …… + θnxn
  - 目标是拟合函数
- 逻辑回归：f(x) = p(y=1 | x; θ) = sigmoid(1 / (1 + e^-z))
  - 目标是拟合对1类样本的概率

8.随机梯度下降（SGD）和批量梯度下降（BGD）的区别

9.什么是AUC

AUC是描述负样本出现在正样本前面的概率

10.模型中的w参数，为什么不能过大？

容易导致梯度更新波动大

11.什么是正则化项？

简单理解，就是在损失函数中增加范数，添加了约束，让w参数学的更小，如果是L1正则的话，除了让w学小之外，还可以过滤掉影响较小的特征，让模型变的更简洁，可解释性更好

12.过拟合的问题？

（1）如果数据中有噪音，模型如果把噪音也学的非常好的话，导致模型失效
（2）如果模型参数学习的很大，会导致求sigmoid函数预测的时候，导致输出值很大，容易使得误差变的很大，从而导致了更新中，带来了更多的波动
（3）w参数值很大，容易过拟合，哪怕是影响不大的信号，在面对巨大的w的时候，容易把其影响力放大，这是不合理的

13.解决过拟合的方法？

降低模型复杂度处理过拟合的第一步就是降低模型复杂度
增加更多数据：使用更大的数据集训练模型
数据增强，对原有样本做变换，图像中常用，比如把一个正常的图片进行翻转
正则化，L1和L2
dropout，网络减枝
早停
重新清洗数据：把明显异常的数据剔除
使用集成学习方法：把多个模型集成在一起，降低单个模型的过拟合风险
BatchNorm，批量归一

幼稚的人呐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

幼稚的人呐 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。