特征工程（补充）--机器学习数据集里的不均衡数据问题

最新推荐文章于 2024-09-23 14:14:37 发布

JepsonWong

最新推荐文章于 2024-09-23 14:14:37 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：机器学习特征工程不均衡书籍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013710265/article/details/71794679

版权

在不均衡数据集上，模型可能过度拟合多数类。应对方法包括扩大样本、改变性能标准（如使用混淆矩阵、F1分数、Kappa等）、重采样（过抽样、欠抽样）、生成人工样本（如SMOTE）和尝试不同算法。决策树等在处理这类问题时可能表现良好。考虑异常检测和变化检测等不同视角也有助于解决问题。

摘要由CSDN通过智能技术生成

开头我们举个例子。

例如：“现在我正在运行一个分类模型。在我的数据集里面一共有3类数据，这里我们称它们分别为A，B和C，但是在我的训练数据集里面A，B和C三类数据分别占了90%，5%和5%。在大多数情况下，结果都过度拟合A类数据。”

在数据不均衡的情况下，我们得到90％的准确率（比如包含90％的数据类型一的实例）是因为我们的模型观察数据并且智能地总是根据数据类型一的数据进行预测（A类数据），并且尽量达到最高精度。当我们规则基于这个方法进行的时候似乎得到的是最好的答案。但是如果你在最后的模型中仔细考察这个规则，你会发现似乎这个方法是忽略其他数据在对一类数据进行预测。

所以我们的应对解决方法是什么呢？

1) 可以扩大数据样本

你可能会认为这样做很愚蠢，但扩大样本数据总是容易被忽视。你能收集更多的数据吗？花一秒钟，想想你是否能够收集更多和问题相关的数据。在集合中，一个更大的数据集，就有可能挖掘出不同的或许更平衡的方面。之后当我们寻找重复采集的数据样本时，一些小样本类数据的例子可能是有帮助的。

2)试着改变你的绩效标准

精度是一个不适用于不平衡的数据集的绩效指标。正如我们已经看到的，这是一种误导。

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

JepsonWong CSDN认证博客专家 CSDN认证企业博客

码龄11年

100: 原创

17万+: 周排名

120万+: 总排名

34万+: 访问

: 等级

4126: 积分

111: 粉丝

74: 获赞

9: 评论

375: 收藏

私信

关注

热门文章

分类专栏

计算机系统结构 17篇
人工智能 1篇
机器学习 24篇
神经网络 1篇
自然语言处理 3篇
大数据 15篇
python 9篇
C++ 2篇
Java 3篇
Scala 7篇
Linux 12篇
线性代数 2篇
科学计算 2篇
最优化理论 1篇
开源硬件 9篇
算法 2篇
网络 9篇
TensorFlow 1篇
汇编语言 2篇
安全 1篇
其他 1篇

最新评论

特征工程（补充）--特征组合
Bullet@: 可以具体谈谈是怎么样让特征加减乘除组合的吗？
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
人工智能三要素
m0_49510957: 无限超级人工智能机器人可以帮助全人类获得无限算能造器来完成全人类的不死永生与无限飞穿！……………

大家在看

Windows搭建Java开发环境（Building a Java development environment on Windows）

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。