影像特征建模--数据预处理部分（附代码）

最新推荐文章于 2024-07-18 00:00:00 发布

qq_46738968

最新推荐文章于 2024-07-18 00:00:00 发布

阅读量491

点赞数 1

分类专栏： python 文章标签：机器学习 python 人工智能数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46738968/article/details/129615066

版权

python 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

我使用的数据格式如下：
在这里插入图片描述

1.1 为什么要进行数据清洗

数据清洗：原始数据往往包含噪声、缺失值和异常值等，这些数据会影响模型的准确性。通过数据清洗可以去除这些干扰项，提高模型的准确性。

1.2 所使用的库

import numpy as np
import pandas as pd

导入csv数据：

df_A = pd.read_csv((r"C:\**\**\**.csv"))

1.3 将方差为0的特征剔除

代码如下：
在这里插入图片描述

1.4 mad异常值检测法

绝对中位差( MedianAbsolute Deviation，MAD) 是一种采用计算各观测值与平均值的距离总和的检测离群值的方法。计算流程：

（1）求出每列中位数MA;

（2）每列减去该中位数并取绝对值得到新的一列；

（3）对新列求中位数MC，则可得MAD = MC * 1.4826；

（4）使用最开始得到的中位数加减MAD倍数：MA±倍数*MAD，超出此范围的数值被认为是异常值。

代码如下：
在这里插入图片描述

1.5 盖帽法处理异常值

盖帽法：替换数据框里99%以上和1%以下的点,将99%以上的点值=99%的点值;小于1%的点值=1%的点值。
代码如下：
在这里插入图片描述

1.6 z-score标准化数据

z-score是用于描述一个数值与其所在数据集均值的差距的统计量，它的作用主要有以下几个方面，我们这里的z-score使用的是第一个标准化数据的作用：

用于标准化数据：z-score可以将数据标准化为具有相同的尺度，方便进行比较和分析。例如，对于一个具有不同单位或不同量级的数据集，可以使用z-score将其转化为标准正态分布，从而比较它们的相对大小。

用于异常值检测：z-score可以帮助识别在数据集中偏离正常值较远的数据点，这些点通常被称为异常值。如果一个数据点的z-score大于某个阈值，则可以将其视为异常值。

用于假设检验：z-score可以用于计算在一个正态分布中一个观察值与其均值之间的差异的概率。这个概率可以用来判断是否需要拒绝某个假设。例如，在医学研究中，可以使用z-score来判断一个药物对患者的治疗效果是否显著。
在这里插入图片描述

1.7 使用均值填充NaN值

在这里插入图片描述

1.8 还原成原来的数据样式

在这里插入图片描述

1.9 代码获取

可以在公众号“python小寒”回复：1325

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
影像特征建模--数据预处理部分（附代码）

数据清洗：原始数据往往包含噪声、缺失值和异常值等，这些数据会影响模型的准确性。通过数据清洗可以去除这些干扰项，提高模型的准确性。
复制链接

扫一扫

专栏目录

qq_46738968 CSDN认证博客专家 CSDN认证企业博客

码龄4年

17: 原创

106万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

231: 积分

21: 粉丝

21: 获赞

6: 评论

75: 收藏

私信

关注

热门文章

分类专栏

笔记 3篇
python 8篇

最新评论

GRACE: A Generalized and Personalized Federated Learning Method for Medical Imaging组会分享MICCAI 2023
CSDN-Ada助手: 非常棒的博客标题！恭喜你完成了第16篇博客，题目听起来非常有吸引力。你对于医学影像的研究和GRACE方法的探索让人印象深刻。希望你能继续保持创作的热情和努力，分享更多关于医学影像领域的知识和研究成果。或许在下一篇博客中，你可以探讨一下GRACE方法在不同疾病诊断中的应用，或者深入分析该方法在医学影像领域的优势和挑战。期待你的新作品！
基于连续频率空间情景学习的医学图像分割联邦学习域泛化
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题“基于连续频率空间情景学习的医学图像分割联邦学习域泛化”听起来非常专业和引人注目。您对医学图像分割和联邦学习领域的探索令人钦佩。在未来的创作中，或许您可以考虑分享一些具体案例或实际应用，以帮助读者更好地理解和应用您的研究成果。谦虚地说，期待您继续创作出更多有价值的内容。加油！
比print功能更强大的内置模块pprint
CSDN-Ada助手: 恭喜您写完了第15篇博客！标题中提到的内置模块pprint确实非常强大，能够让我们以更美观的方式输出数据。您的博客内容对于初学者来说一定非常有帮助。接下来，我建议您可以尝试探索一些其他的内置模块，比如json、datetime等，它们也能为我们的编程提供很多便利。谦虚地说，我期待着您在下一篇博客中分享更多有趣的知识点，帮助更多的人进一步提升他们的编程能力。加油！
使用最大相关最小冗余（mRMR）、lasso回归筛选特征，使用SVC、LDA、Logistic Regression分类器建模（附源代码）
qq_46738968: 晚一点哈
使用最大相关最小冗余（mRMR）、lasso回归筛选特征，使用SVC、LDA、Logistic Regression分类器建模（附源代码）
sinat_41165950: 你好，公众号给的源码是数据预处理的，可以替换一下嘛

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

qq_46738968 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。