python怎么整理数据的具体人数_用Python进行数据整理

数据预处理是数据分析的关键步骤,包括数据收集、评估和清洗。数据收集可通过直接下载、编程下载或使用已有文件进行。数据评估关注数据质量和完整性,识别丢失、无效、不准确和不一致的数据。数据清洗则涉及定义清洗计划、编码实现和实践验证,确保数据整洁,如重命名列标题、处理缺失值等。在实践中,数据清洗是确保后续分析准确性的基础。
摘要由CSDN通过智能技术生成

【数据整理】

数据整理是在分析,可视化和在使用机器学习建立预测模型之前,进行数据收集,数据评估和数据整理的过程

【数据收集】

方法:1、从网上直接下载数据源;2、用编程方法下载数据源;3、使用手头的文件

【数据评估】

评估我们的数据,已确定哪些是干净的数据,以及一旦丢失哪些数据,我们还需要收集哪些数据。确保我们的数据形式,能让后续分析更轻松一点,更注重这方便一些。

数据评估主要是评估数据的质量和完整度。

数据质量问题:1、数据丢失;2、数据无效;3、数据不准确;4、数据不一致,单位不同

数据整洁度标准:1、每个变量构成一列;2、每个观察结果构成一行;3、每种类型的观察单位构成一个表格。

评估的方法:目测评估(小样本)、编程评估

使用.head显示DataFrame前5行

使用.tail显示DataFrame最后5行

显示.info显示DataFrame基本摘要

使用.value_counts显示年份一栏的输入数

df.Year.value_counts(),value_counts是用于series,不能用于dataframe.

【数据清洗】

编程数据清理过程分为3步:定义,代码,练习

定义:指以书面形式定义数据清洗计划,其中我们需将评估转变为定义的清洗任务。这个计划也可作为一个知道清单,所以其他人(或我们自己将来)也可以回顾和重现自己的工作。

编码:指将这些定义转换为代码并执行该代码。

练习:指练习我们的数据集,通常使用代码,以确保有效完成我们的清洗工作。

在清洗之前先准备副本

df_clean=df.copy()

重命名列标题

df_clean = df_clean.rename(columns = {'oldname1':'newname1',

'oldname2':'newname2'})

内容不一致问题

df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad',axis=None)

* 用"value"或第二个参数替换“to_replace”中给出的值-即第一个参数

* inplace的默认值为假,我们要将它转换成True.inplace真值是指我们只能在这里写这行代码,并执行这行代码,它所产生的变化将反应在df_clean中,如果这里没有inplace真值,我们就必须将次函数的结果重新赋给Startdate列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值