机器学习面试点

1、正则化

2、样本不平衡问题

  • 样本不平衡指的是分类任务中不同类别的训练样例数目相差很大的情况。通过解决样本不平衡,可以减少模型学习样本比例的先验信息,以获得能学习到辨别好坏本质特征的模型。

  • 解决方法:
    通过某种方法使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的。具体可以从数据样本、模型算法、目标函数、评估指标等方面进行优化。其中数据增强、代价敏感学习及采样+集成学习是比较常用的,效果也是比较明显的。

    1)样本层面:
    上采样、降采样

    2)损失函数层面:
    主流的方法为常用的代价敏感学习,为不同的分类错误给予不同惩罚力度(权重)。class weight为不同类别的样本提供不同的权重(少数类有更高的权重),从而模型可以平衡各类别的学习。

    3)模型层面:
    选择一些对不均衡比较不敏感的模型。比如,对比逻辑回归模型(lr学习的全量训练样本的最小损失,自然会比较偏向去减少多数类样本造成的损失),决策树在不平衡数据上面表现相对好一些。

    4)评估指标方面:
    对于类别不平衡下的模型评估,可以采用AUC来评估模型表现,AUC对样本的正负样本比例情况不敏感。而对于分类常用的precision、recall、F1、混淆矩阵对样本不平衡敏感。

3、如何处理缺失值
均值填充、聚类填充等等

4、评估指标什么时候用AUC,什么时候用F1

5、相关性(距离的定义)

6、baging、boosting、stacking(分层模型集成框架?)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值