机器学习要点（二）：数据处理相关

最新推荐文章于 2024-04-29 20:49:59 发布

hscreamom

最新推荐文章于 2024-04-29 20:49:59 发布

阅读量756

点赞数

本文链接：https://blog.csdn.net/hscreamom/article/details/78203811

版权

重采样技术

1、随机欠采样

优点：它可以提升运行时间；并且当训练数据集很大时，可以通过减少样本数量来解决存储问题。

缺点：它会丢弃对构建规则分类器很重要的有价值的潜在信息。被随机欠采样选取的样本可能具有偏差。它不能准确代表大多数。从而在实际的测试数据集上得到不精确的结果。

2、随机过采样

优点：与欠采样不同，这种方法不会带来信息损失。表现优于欠采样。

缺点：由于复制少数类事件，它加大了过拟合的可能性。

3、基于聚类的过采样（Cluster-BasedOver Sampling）

优点：这种聚类技术有助于克服类之间不平衡的挑战。表示正例的样本数量不同于表示反例的样本数量。

有助于克服由不同子聚类组成的类之间的不平衡的挑战。每一个子聚类不包含相同数量的实例。

缺点：正如大多数过采样技术，这一算法的主要缺点是有可能过拟合训练集。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hscreamom

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

机器学习第一章之大数据分析与机器学习简介

wangyutao12345的博客

08-13

4444

机器学习专题系列

机器学习&数据挖掘知识点大总结

MrUpset的博客

03-06

475

基础深度学习工具

参与评论您还未登录，请先登录后发表或查看评论

机器学习 & 数据处理零散知识点

weixin_44414593的博客

08-02

171

缺失值处理方法综述 1.删除。缺失值达到一定比例后（比例数值主观判断），直接删除吧。因为缺失值填补会在一定程度上改变数据的分布。 **2.人工填补法。**人工智能还是依赖于人工。 **3.特殊值处理。**类别特征存在缺失时，该方法容易理解。数值型特征缺失时，不建议使用。另外使用该方法会改变数据分布，所以并不建议使用。 4.同类填充（我自己命名）。缺失值为类别特征时，分析关联特征，然后进行groupby，使用该分组中的众数进行填充。数值型特征操作方法一致，但是田中方法可以换成均值，中位数，均值与中位数加权和

不平衡分类数据集处理（SMOTE和SMOTE-ENN）

qq_51465769的博客

12-07

3217

处理不平衡数据集的方法

4.过采样

xuxudeta的博客

06-06

5823

BMP388过采样温度和数据处理流程：思路解析1：当温度和数据同时采样，当二者的过采样设置不同时，采样速率会有所差别，滤波器会自动的存储最新的数据点，将老的数据覆盖，从而在输出到FIFO中达到一个完善的数据流。思路解析2：数据读取方式，设置数据输出速率直接影响到使用者的数据处理速度，设计者应注意512byte的FIFO缓冲区使用情况，计算出相应的延时，从而完成对数据的实时监控采样率：单位时间对数据的采样次数，一般情况下采样频率越高，采样数据的精度就越高 1）过采样法（sampling）：...

欠采样方法总结

weixin_43978588的博客

11-02

5173

欠采样方法总结

（初级）机器学习笔记一：python基础语法之数据类型和字符串

11-20

本次笔记是关于Python语言基础知识中的数据类型和字符串操作，这是学习机器学习和数据科学的入门要点。首先，Python的基本数据类型包括整型（int）、浮点型（float）、布尔型（bool）以及复数类型（complex），...

10种机器学习算法要点

01-17

在当前信息技术飞速发展的时代，机器学习作为人工智能的一个重要分支，已经成为...通过不断的学习和实践，每一位有志于成为数据科学家的人都能够掌握这些机器学习算法的要点，并在解决问题的过程中不断提升自己的能力。

机器学习要点整理.pdf

02-06

### 机器学习要点整理 #### 一、支持向量机中的截距项 - **描述**：“可以通过任意支持向量能够求出解的截距项”这一说法是正确的。 - **解析**：在支持向量机(SVM)的学习过程中，模型的决策边界是由支持向量确定...

过采样和欠采样原理对比

04-06

详细描述了过采样、欠采样的原理，并就实际工程应用给出了2者的对比。

上采样下采样 过采样 欠采样

qq_40212975的博客

07-06

730

一、上采样和下采样的对比上采样：放大图片下采样：缩小图片二、过采样和欠采样的对比针对于正负样本不均衡，例如当正负样本比例达到1：99，分类器将所有的样本都判为负样本能达到99%的正确率，显然结果不是我们想要的。又例如，有一组数据，其中标签为1的样本数有2000，标签为0的数为400。 过采样：从少数类样本中（这里标签为0的样本就是少数样本）重复抽取样本，对少数类样本进行多次复制，扩大数据规模 欠采样：从多数类样本中（这里标签为1的样本就是多数样本）丢弃部分样本，可能会损失部分有用的东西，造成模

[python数据处理系列] 深入理解与实践基于聚类的过采样与欠采样技术：以K-Means为例

最新发布

2301_81199775的博客

04-29

1901

本篇博客将深入探讨过采样和欠采样技术，这两种技术是处理不平衡数据的重要方法。首先，我们将介绍过采样和欠采样的基本概念，以及它们的优缺点。然后，我们将重点讨论基于聚类的欠抽样方法——K-Means欠采样，包括其原理、步骤以及为何选择这种方法。接下来，我们将通过Python代码实现K-Means欠采样，并展示如何确定多数类样本欠抽样的数据量，以及如何从每个簇中选择样本。最后，我们还将简要介绍基于聚类的过抽样方法——K-Means过抽样。希望通过这篇博客，读者能够对过采样和欠采样技术有更深入的理解。

快速了解机器学习中过采样（SMOTE）问题

AI_dataloads的博客

09-11

9160

当我们创建一个逻辑回归模型时，往往会遇到这样一个问题，那就是两类标签的数量相差非常大，可能达到几十万甚至上百万，导致创建的模型往往不是很准确。那么怎样才能避免或者是尽量减小误差呢？这里我们就要来学习一种方法——过采样。

【机器学习】过采样和欠采样问题（二分类数据不均衡）

wzk4869的博客

03-02

2167

【机器学习】过采样和欠采样问题（二分类数据不均衡）

机器学习中的过采样和欠采样

m0_46335150的博客

01-09

4365

机器学习中过采样和欠采样有什么作用

深度学习中的采样：下采样，上采样，欠采样，过采样

weixin_43703670的博客

10-27

7037

深度学习中的采样方法

过采样、欠采样

weixin_44646187的博客

09-29

7232

例如：建立信用违约模型时，违约样本的比例远小于不违约样本的比例，此时模型会花更多精力去你和不违约样本，但实际上找出违约样本更重要，这会导致模型可能在训练集上表现良好，但测试时表现不佳，为了改善样本比例不均衡的问题，可以使用过采样和欠采样的方法，假设现在有100个违约样本和1000个不违约样本。（1）随即过采样：随即过采样时从100个违约样本中随机抽取旧样本作为一个新样本，假设反腐抽取900次，然后和原来的100个旧样本组合成新的1000个违约样本，和1000个不违约样本一起构成新的训练集。

数据类别不平衡的有监督机器学习

liuyinglxl

03-01

1023

1. 数据类别不平衡数据不平衡问题，是指在数据中，各个类别的数量不平衡的情况，简单的就而分类问题来讲，可能正类只有 10%，负类 90%，这种情况在很多场景下都存在，比如异常检测、反作弊等等。在这种数据分布下，如果直接进行有监督学习，那么即使是一个永远只预测为负类的学习器，它的准确率也有90%，但是这样的分类器在实际应用中毫无意义，所以针对类别不平衡的问题，需要进行特殊的处理。 2. 类别不平衡...

北航计算机机器学习复习要点：最大似然估计与线性分类器解析

"北航计算机机器学习2011复习资料包含了最大似然估计和线性分类器（如LDA和感知机）的相关知识，旨在帮助学生理解和掌握这两种重要概念在机器学习中的应用。" 在机器学习领域，最大似然估计是一种常用的参数估计...