pandas数据清洗常用方法总结_用pandas库文件阅读数据清洗表-CSDN博客

本文链接：https://blog.csdn.net/one_bird_/article/details/131807247

文章介绍了使用Pandas进行数据清洗的常用方法，包括数据读取与保存（如CSV、Excel、JSON、数据库），数据查看，索引操作，选择与过滤，缺失值和重复值处理，异常值处理，行列增删，数据拼接与合并，统计与排序，以及数据类型变换等。此外，还涉及了与数据库（如MySQL、SQLServer）的连接操作。

摘要由CSDN通过智能技术生成

数据清洗常用方法

一、数据读取与保存
二、数据查看
三、索引设置与修改
四、选择与过滤
五、缺失值重复值处理
六、异常值处理
七、行列增加与删除
八、拼接与合并
九、统计与排序
十、重塑与轴向旋转
十一、数据运算
十二、数据类型变换
十三、分组运算

一、数据读取与保存

pd.read_csv()/df.to_csv() 从CSV文件读取数据
pd.read_excel()/df.to_excel() 从Excel文件读取数据
pd.read_json()/df.to_json()
pd.read_html()
pd.read_clipboard()
数据库读取
连接MySQL数据库的基本语句如下：

import pymysql
# 建立数据库连接
conn = pymysql.connect(
    host="localhost",
    user="username",
    password="password",
    database="database_name",
    port = 3306
)
# 创建游标对象
cursor = conn.cursor()
# 执行SQL查询语句
sql_query = "SELECT * FROM table_name"
cursor.execute(sql_query)
# 获取查询结果
result = cursor.fetchall()
# 关闭游标和连接
cursor.close()
conn.close()


使用create_engine连接MySQL数据库的基本语句如下：
import sqlalchemy
engine = sqlalchemy.create_engine('mysql+mysqlconnector://username:password@localhost/database_name')
df = pd.read_sql_query('SELECT * FROM table_name', engine) 读取
df.to_sql('',engine,index = False,if_exists = 'replace')  #保存

连接SQL Server数据库的基本语句如下：

import pyodbc
# 建立数据库连接
conn = pyodbc.connect(
    'DRIVER={SQL Server};'
    'SERVER=server_name;'
    'DATABASE=database_name;'
    'UID=username;'
    'PWD=password'
)
# 创建游标对象
cursor = conn.cursor()
# 执行SQL查询语句
sql_query = "SELECT * FROM table_name"
cursor.execute(sql_query)
# 获取查询结果
result = cursor.fetchall()
# 关闭游标和连接
cursor.close()
conn.close()

使用create_engine连接SQL Server数据库的基本语句如下：
from sqlalchemy import create_engine
# 建立数据库连接
engine = create_engine('mssql+pyodbc://username:password@server_name/database_name')
# 执行SQL查询语句
sql_query = "SELECT * FROM table_name"
result = engine.execute(sql_query)
# 获取查询结果
result_list = result.fetchall()
# 关闭连接
engine.dispose()

二、数据查看

df.head() 查看前n行数据，默认为前5行
df.tail() 查看最后n行数据，默认为最后5行
df.sample() 随机采样
df.shape 形状
df.info() 查看数据的基本信息
df.describe() 统计描述性信息，可查看数值型和类别型
df.T 转置
df.values 值
df.index 索引
df.columns 列名
df.types 数据类型

三、索引设置与修改

df.set_index() 将某列设置为索引
df.reset_index() 恢复默认索引
df.reindex() 重新索引
df.index = []
df.columns = []
df.rename(columns = {‘’:‘’},inplace = True) 修改某列名字

# 创建一个DataFrame
data = {'A': [1, 2, 3, 4],
        'B': [5, 6, 7, 8],
        'C': [9, 10, 11, 12]}
df = pd.DataFrame(data)

# 将列'A'设置为索引
df.set_index('A', inplace=True)
# 恢复默认索引
df.reset_index(inplace=True)
# 重新索引
new_index = ['a', 'b', 'c', 'd']
df_reindexed = df.reindex(new_index)
# 修改索引
new_index = ['w', 'x', 'y', 'z']
df.index = new_index
# 修改列名
new_columns = ['Column1', 'Column2', 'Column3']
df.columns = new_columns
# 修改列名为'A'为'NewColumn'
df.rename(columns={'Column1':'NewColumn'}, inplace=True)

四、选择与过滤

df[‘column_name’] 选择指定列
df[[‘column1’, ‘column2’]] 选择多列
df.loc[row_index] 选择指定行
df[df[‘column’] > 10] 选择column列大于10的行
df.loc[‘a’:‘c’] 选择多行，显示索引，左闭右闭
df.loc[‘a’:‘c’,[‘A’:‘C’]] 选择特定行和列
df.loc[‘a’:‘c’,‘A’:‘C’]
df.iloc[3:6]
df.iloc[1:3,4:8] 隐式索引，左闭右开
df.loc[df[‘A’]>0,df.loc[‘a’]>2] 选择a行大于2,A列大于0的所有行
df.loc[df[‘column’] > 10, [‘column1’, ‘column2’]]
df[df[‘column’].notnull()] 选择某列非空的所有行

五、缺失值重复值处理

df.isnull()/df.notnull() 缺失值判断
df.isnull().sum() 缺失值统计，返回一个以 df各列值为nan个数为元素的序列
df.isnull().sum().sum() 返回 df所有值为nan的个数和。
df.dropna() 删除指定列
df.duplicated() 重复值
df.dupicated().sum()
df.drop_duplicated() 重复值删除，保留第一次出现的行数据，删除其他的重复行数据 keep=‘first’ 可缺省
df.drop_duplicated(keep=‘last’) # 保留最后一次出现的行数据，删除其他的重复行数据
df.drop_duplicated(subset=[‘sex’,‘year’],keep=‘last’) # 移除以指定列(‘sex’,‘year’)所谓判断重复标准的的行
df.replace() 替换
df.fillna(0,inplace=False) # 将 DataFrame中的所有 NaN填充为 0 inplace缺省时默认 inplace=False
df.fillna(0,inplace=True) # 就地修改
df[0].fillna(df[0].mean()) # 填充第 1列,使用第一列的统计非 NaA的平均值。
df[0:2]=df[0:2].fillna(‘enene’) # 填充第 1-3列,使用’enene’
df2.fillna({0:0,2:‘aa’}) # 给指定的列填充第一列的填充值为 0，第 3列的填充值为 ‘aa’
df.loc[0].fillna(df.loc[0].mean(),inplace=True) # 填充第 1行,使用第一行的统计非 NaA的平均值。
df.loc[0:2]=df.loc[0:2].fillna(‘enene’) # 填充第 1-3行,使用’enene’
df.dropna(how=‘any’,axis=0) 删除含有 NaN的整行数据当 how='any’时，可以缺省
df.dropna(how=‘all’,axis=0) 删除所有值为 NaN的整行数据
df.dropna(how=‘any’,axis=1) 删除含有 NaN的整列数据当 how='any’时，可以缺省
df.dropna(how=‘all’,axis=1) 删除所有值为 NaN的整列数据