机器学习面试题总结

本文总结了机器学习面试中的常见问题,包括TFIDF的优缺点、相似度计算方法、朴素贝叶斯的特性、逻辑回归与朴素贝叶斯的区别、线性回归与逻辑回归的差异、梯度下降策略、AUC的含义、模型参数控制及过拟合的解决方案等核心知识点。
摘要由CSDN通过智能技术生成

1.TFIDF优点和缺点

2.相似度计算有哪些方法(Jaccard、欧氏距离、Cosine)

3.朴素贝叶斯算法,对缺失值、异常值是否敏感

4.朴素贝叶斯为什么适合增量计算

5.朴素贝叶斯的优缺点

6.逻辑回归和朴素贝叶斯的区别?

  • 逻辑回归是判别模型,朴素贝叶斯是生成模型
    • 判别模型:逻辑回归是直接对P(Y|X)直接建模、学习和求解,是在给定观测变量值前提下目标变量的条件概率模型
    • 生成模型:所有的变量是全概率模型

7.线性回归和逻辑回归的区别?

  • 线性回归样本的输出都是连续值,逻辑回归的输出只能取0和1
  • 拟合函数也有区别:
    • 线性回归:f(x) = θ1x1 + θ2x2 + …… + θnxn
      • 目标是拟合函数
    • 逻辑回归:f(x) = p(y=1 | x; θ) = sigmoid(1 / (1 + e^-z))
      • 目标是拟合对1类样本的概率

8.随机梯度下降(SGD)和批量梯度下降(BGD)的区别

9.什么是AUC

AUC是描述负样本出现在正样本前面的概率

10.模型中的w参数,为什么不能过大?

容易导致梯度更新波动大

11.什么是正则化项?

简单理解,就是在损失函数中增加范数,添加了约束,让w参数学的更小,如果是L1正则的话,除了让w学小之外,还可以过滤掉影响较小的特征,让模型变的更简洁,可解释性更好

12.过拟合的问题?

(1)如果数据中有噪音,模型如果把噪音也学的非常好的话,导致模型失效
(2)如果模型参数学习的很大,会导致求sigmoid函数预测的时候,导致输出值很大,容易使得误差变的很大,从而导致了更新中,带来了更多的波动
(3)w参数值很大,容易过拟合,哪怕是影响不大的信号,在面对巨大的w的时候,容易把其影响力放大,这是不合理的

13.解决过拟合的方法?

  • 降低模型复杂度 处理过拟合的第一步就是降低模型复杂度
  • 增加更多数据:使用更大的数据集训练模型
  • 数据增强,对原有样本做变换,图像中常用,比如把一个正常的图片进行翻转
  • 正则化,L1和L2
  • dropout,网络减枝
  • 早停
  • 重新清洗数据:把明显异常的数据剔除
  • 使用集成学习方法:把多个模型集成在一起,降低单个模型的过拟合风险
  • BatchNorm,批量归一
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幼稚的人呐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值