深入掌握Pandas：Python数据分析的利器

最新推荐文章于 2024-08-23 09:48:05 发布

xyt556_CUMT

最新推荐文章于 2024-08-23 09:48:05 发布

阅读量368

点赞数 3

分类专栏： Big Data 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/u011315466/article/details/140761428

版权

Big Data 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Pandas：Python数据分析的利器

Pandas是Python中最流行的数据处理和分析库之一。它提供了高效、便捷的数据结构和数据分析工具，使得数据处理工作变得简单而强大。本文将详细介绍Pandas的核心概念、数据结构以及常见操作，帮助读者全面掌握Pandas的基本用法。

1. 安装Pandas

在开始使用Pandas之前，需要先进行安装。你可以使用pip进行安装：

pip install pandas

2. 数据结构

Pandas主要提供了两种数据结构：Series和DataFrame。

2.1 Series

Series是一种类似于一维数组的对象，它由一组数据和与之相关的索引组成。

import pandas as pd

# 创建一个Series对象
data = pd.Series([1, 2, 3, 4, 5])
print(data)

# 带有索引的Series
data = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(data)

2.2 DataFrame

DataFrame是一个类似于二维数组或表格的数据结构，它由多个Series组成。每个Series代表一个列，所有Series共享一个索引。

# 创建一个DataFrame对象
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)
print(df)

3. 数据导入与导出

Pandas支持从多种数据格式导入和导出数据，如CSV、Excel、SQL、JSON等。

3.1 导入数据

# 从CSV文件导入数据
df = pd.read_csv('data.csv')

# 从Excel文件导入数据
df = pd.read_excel('data.xlsx')

# 从SQL数据库导入数据
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM table_name', conn)

# 从JSON文件导入数据
df = pd.read_json('data.json')

3.2 导出数据

# 导出数据到CSV文件
df.to_csv('output.csv', index=False)

# 导出数据到Excel文件
df.to_excel('output.xlsx', index=False)

# 导出数据到SQL数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)

# 导出数据到JSON文件
df.to_json('output.json')

4. 数据操作

Pandas提供了丰富的数据操作功能，如选择、过滤、排序、聚合等。

4.1 选择与过滤

# 选择列
print(df['Name'])

# 选择多列
print(df[['Name', 'Age']])

# 选择行（基于索引）
print(df.loc[1])

# 选择行（基于位置）
print(df.iloc[1])

# 条件过滤
print(df[df['Age'] > 25])

4.2 排序

# 按单列排序
print(df.sort_values(by='Age'))

# 按多列排序
print(df.sort_values(by=['Age', 'Name'], ascending=[True, False]))

4.3 聚合

# 计算列的总和
print(df['Age'].sum())

# 计算列的平均值
print(df['Age'].mean())

# 分组聚合
print(df.groupby('City').mean())

5. 数据清洗

数据清洗是数据分析的重要步骤，Pandas提供了丰富的数据清洗功能。

5.1 处理缺失值

# 查看缺失值
print(df.isnull().sum())

# 删除缺失值
df.dropna(inplace=True)

# 填充缺失值
df.fillna({'Age': df['Age'].mean()}, inplace=True)

5.2 处理重复值

# 查看重复值
print(df.duplicated())

# 删除重复值
df.drop_duplicates(inplace=True)

5.3 数据转换

# 数据类型转换
df['Age'] = df['Age'].astype(int)

# 应用函数进行转换
df['Name'] = df['Name'].apply(lambda x: x.upper())

6. 数据合并

Pandas支持多种数据合并操作，如连接、合并、拼接等。

6.1 连接（Join）

# 创建两个DataFrame
left = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
right = pd.DataFrame({'key': ['B', 'C', 'D'], 'value': [4, 5, 6]})

# 内连接
print(pd.merge(left, right, on='key', how='inner'))

# 外连接
print(pd.merge(left, right, on='key', how='outer'))

# 左连接
print(pd.merge(left, right, on='key', how='left'))

# 右连接
print(pd.merge(left, right, on='key', how='right'))

6.2 拼接（Concat）

# 创建两个DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']})

# 纵向拼接
print(pd.concat([df1, df2], axis=0))

# 横向拼接
print(pd.concat([df1, df2], axis=1))

7. 高级功能

Pandas还提供了一些高级功能，如时间序列处理、数据透视表等。

7.1 时间序列处理

# 创建时间序列数据
rng = pd.date_range('2023-01-01', periods=10, freq='D')
ts = pd.Series(range(10), index=rng)

# 重采样
print(ts.resample('2D').sum())

# 滚动计算
print(ts.rolling(window=3).mean())

7.2 数据透视表

# 创建数据
data = {
    'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': [1, 3, 2, 5, 4, 6]
}
df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = df.pivot_table(values='C', index='A', columns='B', aggfunc='sum')
print(pivot_table)