【美赛必备】一文掌握数据预处理的全过程

最新推荐文章于 2023-02-13 09:50:04 发布

恩雅啊

最新推荐文章于 2023-02-13 09:50:04 发布

阅读量592

点赞数 2

文章标签： c语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76192302/article/details/128791420

版权

数据处理

01

数据获取与目标

拿美赛C题为例，20年、21年的数据压缩前分别为4.6MB和662.8MB，由此可见美赛的C题对于数据量的要求更高了，除此之外，若我们需要额外的数据集，则需从4中找到合适的网站进行搜索。

拿到数据后，一般都是csv或excel文件，我们通常使用python的pandas库进行数据预处理，具体内容包含原始数据的异常值检测、残缺值处理以及特征选择与处理。

1.2 目标

根据题意，我们需要把题目需求抽象成一个合适的数学模型，可能涉及分类、聚类、拟合、预测、评估、优化等方面。为此我们设定一个大方向，然后以流程图的形式绘制出发散性的树形图（即各个小目标），从而完善我们的整个模型框架，从各个小目标中分别对数据进行处理，处理流程如下所示。

02

原始数据的残缺值处理与异常值检测

2.1 残缺值处理

2.1.1 邻近替换【matlab的fillmissing方法】

前/后一个非缺失值将其替换

最近的非缺失值替换

相邻的非离群值线性插值填充

test_data1=fillmissing(test_data,'previous');

test_data1=fillmissing(test_data,'next');

test_data1=fillmissing(test_data,'nearest');

test_data1=fillmissing(test_data,'linear');

2.1.2 插值法填充

2.1.2.1 分段三次Hermite插值法

% x为已知样本点的横坐标，y是已知样本点的纵坐

最低0.47元/天解锁文章

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【美赛必备】一文掌握数据预处理的全过程

数据处理01数据获取与目标拿美赛C题为例，20年、21年的数据压缩前分别为4.6MB和662.8MB，由此可见美赛的C题对于数据量的要求更高了，除此之外，若我们需要额外的数据集，则需从4中找到合适的网站进行搜索。拿到数据后，一般都是csv或excel文件，我们通常使用python的pandas库进行数据预处理，具体内容包含原始数据的异常值检测、残缺值处理以及特征选择与处理。1.2 目标根据题意，我们需要把题目需求抽象成一个合适的数学模型，可能涉及分类、聚类、拟合、预测、评估、优化等方
复制链接

扫一扫

博客等级

码龄1年

32
原创

14
点赞

45
收藏

10
粉丝

关注

私信

热门文章

分类专栏

最新评论

计算机科学与技术专业毕业设计源码会查重吗
m0_56975506: 通透
计算机科学与技术专业毕业设计源码会查重吗
CSDN-Ada助手: 非常棒的问题！我们鼓励你继续分享你在计算机科学与技术专业学习中的经验与见解。如果你想继续深入探讨学术领域中的查重问题，我们推荐你写一篇关于“计算机科学与技术专业毕业设计中常用的查重工具和技巧”的博客。这个话题很实用，也能帮助更多的同学在毕业设计过程中顺利通过查重。期待你的新作品！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
为什么网上Python爬虫教程这么多，但是做爬虫的这么少呢？爬虫发展又该是如何呢？
奔跑的托马: 感谢博主，今天又是收获满满的一天！
C语言职工工资管理系统（二）
恩雅啊: 谢谢您的提醒，会学习改进的。
C语言职工工资管理系统（二）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。