影像特征建模--数据预处理部分(附代码)

我使用的数据格式如下:
在这里插入图片描述

1.1 为什么要进行数据清洗

数据清洗:原始数据往往包含噪声、缺失值和异常值等,这些数据会影响模型的 准确性。通过数据清洗可以去除这些干扰项,提高模型的准确性。

1.2 所使用的库

import numpy as np
import pandas as pd

导入csv数据:

df_A = pd.read_csv((r"C:\**\**\**.csv"))

1.3 将方差为0的特征剔除

代码如下:
在这里插入图片描述

1.4 mad异常值检测法

绝对中位差( MedianAbsolute Deviation,MAD) 是一种采用计算各观测值与平均值的距离总和的检测离群值的方法。计算流程:

(1)求出每列中位数MA;

(2)每列减去该中位数并取绝对值得到新的一列;

(3)对新列求中位数MC,则可得MAD = MC * 1.4826;

(4)使用最开始得到的中位数加减MAD倍数:MA±倍数*MAD,超出此范围的数值被认为是异常值。

代码如下:
在这里插入图片描述

1.5 盖帽法处理异常值

盖帽法:替换数据框里99%以上和1%以下的点,将99%以上的点值=99%的点值;小于1%的点值=1%的点值。
代码如下:
在这里插入图片描述

1.6 z-score标准化数据

z-score是用于描述一个数值与其所在数据集均值的差距的统计量,它的作用主要有以下几个方面,我们这里的z-score使用的是第一个标准化数据的作用:

用于标准化数据:z-score可以将数据标准化为具有相同的尺度,方便进行比较和分析。例如,对于一个具有不同单位或不同量级的数据集,可以使用z-score将其转化为标准正态分布,从而比较它们的相对大小。

用于异常值检测:z-score可以帮助识别在数据集中偏离正常值较远的数据点,这些点通常被称为异常值。如果一个数据点的z-score大于某个阈值,则可以将其视为异常值。

用于假设检验:z-score可以用于计算在一个正态分布中一个观察值与其均值之间的差异的概率。这个概率可以用来判断是否需要拒绝某个假设。例如,在医学研究中,可以使用z-score来判断一个药物对患者的治疗效果是否显著。
在这里插入图片描述

1.7 使用均值填充NaN值

在这里插入图片描述

1.8 还原成原来的数据样式

在这里插入图片描述

1.9 代码获取

可以在公众号“python小寒”回复:1325

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qq_46738968

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值