python怎么整理数据的具体人数_用Python进行数据整理

最新推荐文章于 2024-05-20 01:00:00 发布

一不小心就来了

最新推荐文章于 2024-05-20 01:00:00 发布

阅读量157

点赞数

文章标签： python怎么整理数据的具体人数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35973118/article/details/113512850

版权

数据预处理是数据分析的关键步骤，包括数据收集、评估和清洗。数据收集可通过直接下载、编程下载或使用已有文件进行。数据评估关注数据质量和完整性，识别丢失、无效、不准确和不一致的数据。数据清洗则涉及定义清洗计划、编码实现和实践验证，确保数据整洁，如重命名列标题、处理缺失值等。在实践中，数据清洗是确保后续分析准确性的基础。

摘要由CSDN通过智能技术生成

【数据整理】

数据整理是在分析，可视化和在使用机器学习建立预测模型之前，进行数据收集，数据评估和数据整理的过程

【数据收集】

方法：1、从网上直接下载数据源；2、用编程方法下载数据源；3、使用手头的文件

【数据评估】

评估我们的数据，已确定哪些是干净的数据，以及一旦丢失哪些数据，我们还需要收集哪些数据。确保我们的数据形式，能让后续分析更轻松一点，更注重这方便一些。

数据评估主要是评估数据的质量和完整度。

数据质量问题：1、数据丢失；2、数据无效；3、数据不准确；4、数据不一致，单位不同

数据整洁度标准：1、每个变量构成一列；2、每个观察结果构成一行；3、每种类型的观察单位构成一个表格。

评估的方法：目测评估(小样本)、编程评估

使用.head显示DataFrame前5行

使用.tail显示DataFrame最后5行

显示.info显示DataFrame基本摘要

使用.value_counts显示年份一栏的输入数

df.Year.value_counts()，value_counts是用于series，不能用于dataframe.

【数据清洗】

编程数据清理过程分为3步：定义，代码，练习

定义：指以书面形式定义数据清洗计划，其中我们需将评估转变为定义的清洗任务。这个计划也可作为一个知道清单，所以其他人(或我们自己将来)也可以回顾和重现自己的工作。

编码：指将这些定义转换为代码并执行该代码。

练习：指练习我们的数据集，通常使用代码，以确保有效完成我们的清洗工作。

在清洗之前先准备副本

df_clean=df.copy()

重命名列标题

df_clean = df_clean.rename(columns = {'oldname1':'newname1',

'oldname2':'newname2'})

内容不一致问题

df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad',axis=None)

* 用"value"或第二个参数替换“to_replace”中给出的值-即第一个参数

* inplace的默认值为假，我们要将它转换成True.inplace真值是指我们只能在这里写这行代码，并执行这行代码，它所产生的变化将反应在df_clean中，如果这里没有inplace真值，我们就必须将次函数的结果重新赋给Startdate列

一不小心就来了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。