# 1. 导入 pandas 库
import pandas as pd
# 2. 读取数据
# 2.1 CSV 文件
df = pd.read_csv('data.csv')
# 2.2 Excel 文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 3. 处理缺失值
# 3.1 检测缺失值
print(df.isnull().sum())
# 3.2 填充缺失值
df['column'] = df['column'].fillna('value')
# 4. 数据清洗
# 4.1 去除重复行
df.drop_duplicates(inplace=True)
# 4.2 去除空值
df.dropna(inplace=True)
# 5. 数据转换
# 5.1 类型转换
df['column'] = df['column'].astype('int64')
# 5.2 值转换
df['column'] = df['column'].replace({'value': 'new_value'})
# 6. 数据分析
# 6.1 统计信息
print(df.describe())
# 6.2 查看头部行和尾部行
print(df.head())
print(df.tail())
# 7. 数据合并
# 7.1 内连接
df = pd.merge(df, df, on='column')
# 7.2 外连接
df = pd.merge(df, df, left_on='column', right_index=True)
# 8. 数据可视化
import matplotlib.pyplot as plt
# 8.1 线图
plt.plot(df['column'])
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Title')
plt.show()
# 9. 高级功能
# 9.1 并行处理
df = pd.read_csv('data.csv', chunksize=1000)
with pd.Parallelize(n_jobs=-1):
for chunk in df:
print(chunk)
# 9.2 分布式处理
from dask import DataFrame as DdF
df = DdF.from_pandas(df, index=False)
pandas学习
最新推荐文章于 2024-05-17 18:09:22 发布