用pandas清洗数据具体步骤(基础篇一)

引言

     数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。但在实际的工作中一个分析项目70%左右的时间花在清洗数据上面。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗,干净的数据也要洗。本篇文章将用一个简单的范例来介绍使用pandas进行数据清洗的流程。

读取数据

      pandas模块中有专门针对xlsx和xls这类excel文件的读取方法read_excel。当然用的最多的还是read_csv文件。因为excel文件最多只能存储100多万行,但是csv文件可以存储上亿行数据。既然是简单范例,我就只使用execl来读取了。

tt=pd.read_excel(r'd:\\000030.xlsx',sheet_name='Sheet1')
#直接读取硬盘中的excel文件,变成Dataframe格式 
表格格式如下图所示:

  • 18
    点赞
  • 149
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
使用 Pandas 清洗数据的过程通常包括以下几个步骤: 1. 加载数据:使用 Pandas 的 `read_csv()` 函数可以读取 CSV 文件中的数据,也可以使用 `read_excel()` 函数读取 Excel 文件中的数据,或者使用 `read_sql()` 函数读取 SQL 数据库中的数据。 2. 观察数据:使用 Pandas 的 `head()` 函数可以查看前几行数据,使用 `tail()` 函数可以查看后几行数据,使用 `describe()` 函数可以查看数据的统计信息,使用 `info()` 函数可以查看数据的基本信息。 3. 处理缺失值:使用 Pandas 的 `isnull()` 函数可以检查数据中是否存在缺失值,使用 `fillna()` 函数可以将缺失值替换为指定的值,使用 `dropna()` 函数可以删除包含缺失值的行或列。 4. 处理重复值:使用 Pandas 的 `duplicated()` 函数可以检查数据中是否存在重复值,使用 `drop_duplicates()` 函数可以删除重复值。 5. 处理异常值:使用 Pandas 的筛选功能可以找到异常值,并使用 `fillna()` 函数或 `drop()` 函数进行处理。 6. 数据转换:使用 Pandas 的 `apply()` 函数可以对数据进行转换,使用 `groupby()` 函数可以进行分组操作,使用 `merge()` 函数可以合并多个数据集。 7. 数据格式化:使用 Pandas 的 `astype()` 函数可以将数据转换为指定的格式,使用 `to_datetime()` 函数可以将数据转换为日期格式。 以下是一个使用 Pandas 清洗数据的示例代码: ```python import pandas as pd # 加载数据 data = pd.read_csv('data.csv') # 观察数据 print(data.head()) print(data.describe()) # 处理缺失值 print(data.isnull().sum()) # 统计每列缺失值数量 data = data.fillna(0) # 将缺失值替换为 0 # 处理重复值 print(data.duplicated().sum()) # 统计重复值数量 data = data.drop_duplicates() # 删除重复值 # 处理异常值 data = data[data['value'] > 0] # 筛选出值大于 0 的行 # 数据转换 data['value'] = data['value'].apply(lambda x: x + 1) # 将 value 列加 1 # 数据格式化 data['date'] = pd.to_datetime(data['date']) # 将 date 列转换为日期格式 # 保存数据 data.to_csv('cleaned_data.csv', index=False) ``` 这个示例代码中展示了一些常见的数据清洗操作,您可以根据您的具体需求和数据类型,选择合适的操作,并使用 Pandas 来完成数据清洗任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值