机器学习基础问题汇总

Seven_0507

已于 2022-03-29 15:55:16 修改

阅读量1.4k

点赞数 2

分类专栏：机器学习文章标签：机器学习数据预处理模型评估优化算法

于 2019-08-20 10:16:23 首次发布

本文链接：https://blog.csdn.net/KEEP_GIONG/article/details/94020415

版权

本文总结了机器学习中的数据预处理关键问题，包括如何处理缺失数据、数值特征归一化、不平衡数据集处理和特征选择方法。此外，探讨了模型评估方法，如准确率局限性、精确率与召回率权衡、A/B测试及其在线评估的重要性，以及过拟合和欠拟合的应对策略。

摘要由CSDN通过智能技术生成

文章目录

一、数据预处理

1.1 如何处理数据集中丢失或损坏的数据？

（1）在数据集中找到丢失/损坏的数据，然后删除这些行或列
（2）在数据集中用另一个值替换它们，连续值（取平均值、中位数），离散值（取类别最多的一类）*

1.2 为什么需要对数值类型的特征做归一化？

为了消除数据特征之间的量纲影响，需要对特征进行归一化处理，使得不同指标之间具有可比性，对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。数据归一化使得所有特征的权重相等。
（1）线性函数归一化（Min-Max Scaling）
（2）零均值归一化（Z-Score Normalization）
（3）L1/L2 范数归一化
（4）中心化：x-mean代替原特征
例如，假设有两种数值型特征，x1 的取值范围为 [0, 10]，x2 的取值范围为[0, 3]，在学习速率相同的情况下，x1 的更新速度会大于x2 ，需要较多的迭代才能找到最优解，如果将x1 和x2 归一化到相同的数值区间后，x1 和x2 的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。

1.3 处理不平衡数据集的6个技巧

（1）使用正确的度量方法来评估
精确度/特异性：正样本的预测准确率。
召回率/敏感性：所有预测为正样本的数据的准确率。
F1得分：精确率和召回率的调和平均
MCC：真阳率（TPR）和假阳率（FPR）的关系。
（2）采样法
有两个方法来得到平衡的数据集，一个是欠采样，一个是过采样
a. 欠采样（类别样本数多的样本做子采样）：
欠采样通过减小多数类别的样本数量来得到平衡的数据集。保留所有的少数类别的样本，随机的抽取同样数量的多数类别样本，可以得到一个均衡的新的数据集，用来建模。
b. 过采样（类别样本数少的样本做过采样）：
过采样用在数据集不够的情况下。通过增加少数类的样本数量来得到平衡的数据集。通过重复自助抽样或者SMOTE （合成少数类过采样）来生成少数类的数据。
（3）正确使用K折交叉验证
当使用过采样来解决不均衡数据集的问题的时候，需要适当的使用交叉验证。
（4）集成不同的重新采样的数据集
一个简单的最佳实践是使用所有的少数类和n个不同的多数类组成n个不同的数据集，构建模型。

最低0.47元/天解锁文章

Seven_0507

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
机器学习基础问题汇总

数据预处理特征选择的方法；模型评估方法过拟合的解决方法；如何用尽可能少的样本训练模型同时又保证模型的性能；优化算法：梯度下降的优缺点；L1与L2的区别以及如何解决L1求导困难；算法原理几种模型（svm，lr，gbdt，em）的原理以及公式推导；rf与gbdt的区别？gbdt与xgboost的区别？决策树处理连续值的方法？kmeans的原理，优缺点以及改进；常...
复制链接

扫一扫

专栏目录