用Python进行数据整理

本文介绍了数据整理的三个关键步骤:数据收集、数据评估和数据清洗。数据收集包括从网上下载和编程方式获取数据源;数据评估关注数据质量和完整性,如数据丢失、无效、不准确和不一致的问题;数据清洗则涉及定义清洗计划、编写代码执行清洗任务,并在清洗前备份数据,处理内容不一致等挑战。
摘要由CSDN通过智能技术生成

【数据整理】
数据整理是在分析,可视化和在使用机器学习建立预测模型之前,进行数据收集,数据评估和数据整理的过程
【数据收集】
方法:1、从网上直接下载数据源;2、用编程方法下载数据源;3、使用手头的文件
【数据评估】
评估我们的数据,已确定哪些是干净的数据,以及一旦丢失哪些数据,我们还需要收集哪些数据。确保我们的数据形式,能让后续分析更轻松一点,更注重这方便一些。


数据评估主要是评估数据的质量和完整度。
数据质量问题:1、数据丢失;2、数据无效;3、数据不准确;4、数据不一致,单位不同
数据整洁度标准:1、每个变量构成一列;2、每个观察结果构成一行;3、每种类型的观察单位构成一个表格。


评估的方法:目测评估(小样本)、编程评估
使用.head显示DataFrame前5行
使用.tail显示DataFrame最后5行
显示.info显示DataFrame基本摘要
使用.value_counts显示年份一栏的输入数
df.Year.value_counts(),value_counts是用于series,不能用于dataframe.
【数据清洗】
编程数据清理过程分为3步:定义,代码,练习
定义:指以书面形式定义数据清洗计划,其中我们需将评估转变为定义的清洗任务。这个计划也可作为一个知道清单,所以其他人(或我们自己将来)也可以回顾和重现自己的工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值