R语言数学建模（4）模式甄别

最新推荐文章于 2022-09-20 21:17:47 发布

这波是番茄炒蛋

最新推荐文章于 2022-09-20 21:17:47 发布

阅读量801

点赞数

文章标签：大数据数学建模 r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53165252/article/details/119038782

版权

模式(Pattern):分散于大量数据集中的极少量的零星数据组成的数据集合模式通常具有其他众多数据所没有的，某种局部的，非随机性的，非常规的特殊结构或相关性，很可能是某些重要因素所导致的必然结构（偶然中的必然，有点哲学）。

模式甄别实际上就是对于一大堆数据进行分类，哪些属于异常数据，哪些属于正常数据，这里我们介绍有监督学习的模式甄别，模式甄别实际上就是运用分类算法甄别出数据中的异常项。本文认为因变量1为模式，0或3为正常或缺失。

一，数据预处理

我们进行data mining 前需做的一步是知道数据长啥样，包括缺失值的检验，变量的选择，需不需要降维等等等。

模式甄别与普通的分类问题最大的区别在于，模式甄别的数据集并不平衡，即一个数据集中异常值往往远远小于正常值，我们可以用imbalance rate = balance/imbalance 来表示一个数据集的不平衡程度，对于一个非平衡数据集，一些经典算法如决策树，神经网络，logistics回归就不具有理想的预测效果了这主要是因为1类样较少，对总的预测误差的贡献低于0类，solutions是将其变为平衡

1，基于数据的平衡

数据重抽样可以将非平衡数据集变为平衡，主要有欠抽样与过抽样。

过抽样（Random Over-sampling）：随机又放回的复制少数类样本。

disadvantage:缺点很显然，复制后存在多重共线性，模型会拟合噪声造成过拟合

欠抽样(Random Under-sampling)：取出少数类样本，在多数类样本中

最低0.47元/天解锁文章

这波是番茄炒蛋

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
R语言数学建模（4）模式甄别

模式(Pattern):分散于大量数据集中的极少量的零星数据组成的数据集合模式通常具有其他众多数据所没有的，某种局部的，非随机性的，非常规的特殊结构或相关性，很可能是某些重要因素所导致的必然结构（偶然中的必然，有点哲学）。模式甄别实际上就是对于一大堆数据进行分类，哪些属于异常数据，哪些属于正常数据，这里我们介绍有监督学习的模式甄别，模式甄别实际上就是运用分类算法甄别出数据中的异常项。本文认为因变量1为模式，0或3为正常或缺失。一，数据预处理我们进行data mining 前需做的一步是知道数据长
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。