机器学习基础问题汇总

本文总结了机器学习中的数据预处理关键问题,包括如何处理缺失数据、数值特征归一化、不平衡数据集处理和特征选择方法。此外,探讨了模型评估方法,如准确率局限性、精确率与召回率权衡、A/B测试及其在线评估的重要性,以及过拟合和欠拟合的应对策略。
摘要由CSDN通过智能技术生成

一、数据预处理

1.1 如何处理数据集中丢失或损坏的数据?

(1)在数据集中找到丢失/损坏的数据,然后删除这些行或列
(2)在数据集中用另一个值替换它们,连续值(取平均值、中位数),离散值(取类别最多的一类)*


1.2 为什么需要对数值类型的特征做归一化?

        为了消除数据特征之间的量纲影响,需要对特征进行归一化处理,使得不同指标之间具有可比性,对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。数据归一化使得所有特征的权重相等。
(1)线性函数归一化(Min-Max Scaling)
(2)零均值归一化(Z-Score Normalization)
(3)L1/L2 范数归一化
(4)中心化:x-mean代替原特征
例如,假设有两种数值型特征,x1 的取值范围为 [0, 10],x2 的取值范围为[0, 3],在学习速率相同的情况下,x1 的更新速度会大于x2 ,需要较多的迭代才能找到最优解,如果将x1 和x2 归一化到相同的数值区间后,x1 和x2 的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。


1.3 处理不平衡数据集的6个技巧
  • (1)使用正确的度量方法来评估
    精确度/特异性:正样本的预测准确率。
    召回率/敏感性:所有预测为正样本的数据的准确率。
    F1得分:精确率和召回率的调和平均
    MCC:真阳率(TPR)和假阳率(FPR)的关系。

  • (2)采样法
    有两个方法来得到平衡的数据集,一个是欠采样,一个是过采样
    a. 欠采样(类别样本数多的样本做子采样):
    欠采样通过减小多数类别的样本数量来得到平衡的数据集。保留所有的少数类别的样本,随机的抽取同样数量的多数类别样本,可以得到一个均衡的新的数据集,用来建模。
    b. 过采样(类别样本数少的样本做过采样):
    过采样用在数据集不够的情况下。通过增加少数类的样本数量来得到平衡的数据集。通过重复自助抽样或者SMOTE (合成少数类过采样)来生成少数类的数据。

  • (3)正确使用K折交叉验证
    当使用过采样来解决不均衡数据集的问题的时候,需要适当的使用交叉验证。

  • (4)集成不同的重新采样的数据集
    一个简单的最佳实践是使用所有的少数类和n个不同的多数类组成n个不同的数据集,构建模型。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值