用Python进行数据整理

最新推荐文章于 2024-03-08 23:21:06 发布

木南花

最新推荐文章于 2024-03-08 23:21:06 发布

阅读量5.5k

点赞数

本文链接：https://blog.csdn.net/weixin_41100555/article/details/79056213

版权

【数据整理】
数据整理是在分析，可视化和在使用机器学习建立预测模型之前，进行数据收集，数据评估和数据整理的过程
【数据收集】
方法：1、从网上直接下载数据源；2、用编程方法下载数据源；3、使用手头的文件
【数据评估】
评估我们的数据，已确定哪些是干净的数据，以及一旦丢失哪些数据，我们还需要收集哪些数据。确保我们的数据形式，能让后续分析更轻松一点，更注重这方便一些。

数据评估主要是评估数据的质量和完整度。
数据质量问题：1、数据丢失；2、数据无效；3、数据不准确；4、数据不一致，单位不同
数据整洁度标准：1、每个变量构成一列；2、每个观察结果构成一行；3、每种类型的观察单位构成一个表格。

评估的方法：目测评估（小样本）、编程评估
使用.head显示DataFrame前5行
使用.tail显示DataFrame最后5行
显示.info显示DataFrame基本摘要
使用.value_counts显示年份一栏的输入数
df.Year.value_counts()，value_counts是用于series，不能用于dataframe.
【数据清洗】
编程数据清理过程分为3步：定义，代码，练习
定义：指以书面形式定义数据清洗计划，其中我们需将评估转变为定义的清洗任务。这个计划也可作为一个知道清单，所以其他人（或我们自己将来）也可以回顾和重现自己的工作。
编码：指将这些定义转换为代码并执行该代码。
练习：指练习我们的数据集，通常使用代码，以确保有效完成我们的清洗工作。

在清洗之前先准备副本

df_clean = df.copy()

重命名列标题

df_clean = df_clean.rename(columns = {'oldname1':'newname1',
                                      'oldname2':'newname2'})

内容不一致问题

df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad',axis=None)
    * 用"value"或第二个参数替换“to_replace”中给出的值-即第一个参数
    * inplace的默认值为假，我们要将它转换成True.inplace真值是指我们只能在这里写这行代码，并执行这行代码，它所产生的变化将反应在df_clean中，如果这里没有inplace真值，我们就必须将次函数的结果重新赋给Startdate列

木南花

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
用Python进行数据整理

【数据整理】数据整理是在分析，可视化和在使用机器学习建立预测模型之前，进行数据收集，数据评估和数据整理的过程【数据收集】方法：1、从网上直接下载数据源；2、用编程方法下载数据源；3、使用手头的文件【数据评估】评估我们的数据，已确定哪些是干净的数据，以及一旦丢失哪些数据，我们还需要收集哪些数据。确保我们的数据形式，能让后续分析更轻松一点，更注重这方便一些。数据评估主要是评
复制链接

扫一扫