Pandas数据处理与清洗-缺失数据重复数据类型转换分组聚合

大锤爱编程

已于 2023-04-07 19:49:43 修改

阅读量356

点赞数 3

分类专栏：数据分析文章标签： python pandas

于 2023-03-29 14:41:36 首次发布

本文链接：https://blog.csdn.net/alike_u/article/details/129836392

版权

数据分析专栏收录该内容

13 篇文章 1 订阅

订阅专栏

前言

这篇文章介绍了在Pandas中进行数据处理和清洗的常用操作。主要包括缺失数据的处理、重复数据的处理、数据类型转换、列名和索引的更改以及分组和聚合操作。对于每个操作，都给出了相应的代码示例。这些操作对于进行数据分析和建模都非常重要，能够帮助我们更好地理解和处理数据。

缺失数据的处理

在实际数据处理中，经常会遇到数据缺失的情况。这时需要进行数据填充或删除等处理。Pandas中提供了fillna()和dropna()函数来处理缺失数据。

$import pandas as pd
import numpy as np

# 创建含有缺失数据的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4],
                   'B': [5, np.nan, 7, 8],
                   'C': [9, 10, 11, np.nan]})

# 使用fillna()函数填充缺失数据
df.fillna(0)

# 使用dropna()函数删除缺失数据
df.dropna()$

重复数据的处理

重复数据的存在可能会影响分析结果，需要进行重复数据的处理。Pandas提供了drop_duplicates()函数来去除重复数据。

import pandas as pd

# 创建含有重复数据的DataFrame
df = pd.DataFrame({'A': [1, 1, 2, 3],
                   'B': [4, 5, 6, 6]})

# 使用drop_duplicates()函数去除重复数据
df.drop_duplicates()

数据类型转换

在数据处理过程中，需要将数据类型进行转换。Pandas中提供了astype()函数来进行数据类型的转换。

import pandas as pd

# 创建含有不同数据类型的DataFrame
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': ['4', '5', '6']})

# 使用astype()函数进行数据类型转换
df['B'] = df['B'].astype(int)

列名和索引的更改

在数据处理过程中，需要对列名和索引进行更改。Pandas中提供了rename()函数来进行列名和索引的更改。

import pandas as pd

# 创建含有不同列名和索引的DataFrame
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]},
                  index=['a', 'b', 'c'])

# 使用rename()函数进行列名和索引的更改
df = df.rename(columns={'A': 'new_A'}, index={'a': 'new_a'})

分组和聚合操作

在数据处理过程中，需要对数据进行分组和聚合操作。Pandas中提供了groupby()和agg()函数来进行分组和聚合操作。

import pandas as pd

# 创建含有不同数据的DataFrame
df = pd.DataFrame({'A': ['a', 'a', 'b', 'b'],
                   'B': ['x', 'y', 'x', 'y'],
                   'C': [1, 2, 3, 4]})

# 使用groupby()函数进行分组操作
grouped = df.groupby(['A', 'B'])

# 使用agg()函数进行聚合操作
grouped.agg({'C': 'sum'})