使用Pandas做数据分析：必知必会30点

最新推荐文章于 2024-06-19 09:16:14 发布

我也是松哥

最新推荐文章于 2024-06-19 09:16:14 发布

阅读量163

点赞数

文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/weixin_40747540/article/details/132571140

版权

0、前言

Pandas是一个开源的Python库，提供了高性能、易于使用的数据结构和数据分析工具。Pandas的主要数据结构是Series（一维数据）和DataFrame（二维数据），它们可以处理各种类型的数据，如数值、字符串、时间序列等。Pandas库是基于NumPy的数组计算，提供了丰富的功能和高效的性能，使得它成为了数据分析中最常用的Python库之一。

使用Pandas进行数据分析的好处：

灵活性：Pandas提供了丰富的数据操作功能，如数据导入、导出、选择、过滤、排序、合并、聚合、透视表等，可以方便地对数据进行各种处理。
高效性：Pandas基于NumPy进行数组计算，具有很高的运算速度。同时，Pandas的很多函数都进行了优化，可以快速处理大量数据。
易用性：Pandas提供了简洁的API和良好的文档，使得用户可以快速上手并进行数据分析。
兼容性：Pandas可以与其他Python库（如NumPy、SciPy、Matplotlib等）无缝集成，可以方便地进行数据预处理、分析和可视化。
处理各种数据类型：Pandas可以处理各种数据类型，如数值、字符串、时间序列等，使得我们可以方便地处理实际问题中的各种数据。
数据清洗：Pandas提供了丰富的数据清洗功能，如缺失值处理、数据去重、数据替换等，可以方便地对数据进行预处理。
数据统计与分析：Pandas提供了丰富的数据统计和分析功能，如描述性统计、相关性分析、数据透视表等，可以方便地对数据进行分析。

下面列出使用Pandas进行数据分析时，必知必会的关键技术点，并简单附上必须掌握的理由。

相信大家掌握之后可以极大提升我们的效率和质量。

1、数据导入与导出

理由：在进行数据分析时，需要先导入数据，分析完成后可能需要将结果导出。

import pandas as pd

# 从CSV文件中读取数据
data = pd.read_csv("data.csv")

# 将数据导出到CSV文件
data.to_csv("output.csv", index=False)

2、创建DataFrame

理由：DataFrame是Pandas中的核心数据结构，用于表示二维表格数据。

data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

3、查看数据

理由：查看数据是分析数据的第一步，可以帮助我们了解数据的基本情况。

# 查看前5行数据
print(df.head())

# 查看数据的基本信息（列名、数据类型等）
print(df.info())

4、选择数据

理由：在数据分析中，我们可能只关心某些列或某些行，需要选择感兴趣的数据。

# 选择某一列
print(df['A'])

# 选择多列
print(df[['A', 'B']])

# 选择某一行
print(df.loc[1])

# 选择某个元素
print(df.loc[1, 'A'])

5、切片

理由：切片可以帮助我们选择连续的行或列。

# 选择前2行
print(df[:2])

# 选择第2行到第3行
print(df[1:3])

6、条件选择

理由：条件选择可以帮助我们筛选出满足特定条件的数据。

# 筛选出A列大于1的数据
print(df[df['A'] > 1])

7、缺失值处理

理由：在实际数据中，经常会有缺失值的情况，需要进行处理。

# 检查是否有缺失值
print(df.isnull())

# 删除含有缺失值的行
print(df.dropna())

# 用特定值填充缺失值
print(df.fillna(0))

8、数据排序

理由：数据排序可以帮助我们更好地观察数据的规律。

# 按A列升序排序
print(df.sort_values(by='A'))

# 按A列降序排序
print(df.sort_values(by='A', ascending=False))

9、数据去重

理由：去重可以帮助我们消除重复的数据，保证数据的准确性。

# 去除重复的行
print(df.drop_duplicates())

# 去除A列重复的行
print(df.drop_duplicates(subset='A'))

10、数据合并

理由：在实际分析中，我们可能需要将不同来源的数据进行合并。

# 按照某列进行连接
merged_data = pd.merge(data1, data2, on='key')

# 按照索引进行连接
merged_data = pd.merge(data1, data2, left_index=True, right_index=True)

11、数据聚合

理由：数据聚合可以帮助我们对数据进行分组统计。

# 按A列的值进行分组，计算B列的平均值
print(df.groupby('A')['B'].mean())

12、数据透视表

理由：数据透视表可以帮助我们快速地对数据进行多维度分析。

pivot_table = pd.pivot_table(df, values='C', index='A', columns='B', aggfunc='mean')

13、时间序列处理

理由：在金融、气象等领域，时间序列数据分析非常重要。

import pandas as pd

# 创建一个包含时间序列的DataFrame
data = {'date': ['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04'],
        'value': [1, 2, 3, 4]}
df = pd.DataFrame(data)

# 将字符串类型的时间转换为datetime类型
df['date'] = pd.to_datetime(df['date'])

# 将date列设置为索引
df.set_index('date', inplace=True)

# 提取年份、月份、日
df['year'] = df.index.year
df['month'] = df.index.month
df['day'] = df.index.day

# 按月份对数据进行分组求和
monthly_sum = df.groupby('month')['value'].sum()

# 计算移动平均值
df['moving_average'] = df['value'].rolling(window=3).mean()

# 重采样：计算每月的平均值
monthly_mean = df.resample('M')['value'].mean()

print(df)
print(monthly_sum)
print(monthly_mean)

14、数据映射

理由：数据映射可以帮助我们将某些列的值进行转换，以便于分析。

# 将A列的值按照映射关系进行转换
mapping = {1: 'one', 2: 'two', 3: 'three'}
df['A'] = df['A'].map(mapping)

15、数据替换

理由：数据替换可以帮助我们将某些列的特定值进行替换。

# 将A列的值为1的替换为10
df['A'] = df['A'].replace(1, 10)

16、数据离散化

理由：数据离散化可以帮助我们将连续型数据转换为离散型数据，便于分析。

# 将A列的值离散化为3个区间
df['A'] = pd.cut(df['A'], bins=3, labels=['low', 'medium', 'high'])

17、数据标准化与归一化

理由：标准化与归一化可以消除数据量纲的影响，便于进行比较和分析。

# 标准化
df['A'] = (df['A'] - df['A'].mean()) / df['A'].std()

# 归一化
df['A'] = (df['A'] - df['A'].min()) / (df['A'].max() - df['A'].min())

18、数据计算与变换

理由：数据计算与变换可以帮助我们根据已有的数据生成新的数据。

# 计算A列与B列的和
df['C'] = df['A'] + df['B']

# 对A列进行平方
df['A_squared'] = df['A'] ** 2

19、数据可视化

理由：数据可视化可以帮助我们更好地观察数据的规律。

import matplotlib.pyplot as plt

# 绘制A列的直方图
plt.hist(df['A'])
plt.show()

# 绘制A列与B列的散点图
plt.scatter(df['A'], df['B'])
plt.show()

20、重命名列名

理由：重命名列名可以使数据更易于理解。

# 将A列重命名为column_A
df.rename(columns={'A': 'column_A'}, inplace=True)

21、设置索引

理由：设置索引可以帮助我们根据特定的列进行数据查询。

# 将A列设置为索引
df.set_index('A', inplace=True)

22、重置索引

理由：重置索引可以恢复默认的整数索引。

# 重置索引
df.reset_index(inplace=True)

23、多层索引

理由：多层索引可以帮助我们在多个层次上组织数据。

# 设置A列和B列为多层索引
df.set_index(['A', 'B'], inplace=True)

24、数据过滤

理由：数据过滤可以帮助我们根据特定条件筛选数据。

# 筛选出A列为1且B列为4的数据
filtered_data = df[(df['A'] == 1) & (df['B'] == 4)]

25、数据统计

理由：数据统计可以帮助我们快速了解数据的基本情况。

# 计算各列的平均值
print(df.mean())

# 计算各列的标准差
print(df.std())

26、数据应用函数

理由：应用函数可以帮助我们对数据进行批量处理。

# 对A列应用自定义函数
def custom_function(x):
    return x * 2

df['A'] = df['A'].apply(custom_function)

27、数据拼接

理由：数据拼接可以帮助我们将多个数据集合并为一个数据集。

# 按行拼接
concatenated_data = pd.concat([data1, data2])

# 按列拼接
concatenated_data = pd.concat([data1, data2], axis=1)

28、数据分组与聚合

理由：数据分组与聚合可以帮助我们对数据进行分组统计。

# 计算每个A值对应的B列的总和
grouped_data = df.groupby('A')['B'].sum()

29、数据滚动计算

理由：数据滚动计算可以帮助我们计算数据的移动平均等统计量。

# 计算A列的3期移动平均
df['A_moving_average'] = df['A'].rolling(window=3).mean()

30、数据格式转换

理由：数据格式转换可以帮助我们将数据转换为其他数据结构，便于进一步处理。

# 将DataFrame转换为Numpy数组
numpy_array = df.values

# 将DataFrame转换为字典
data_dict = df.to_dict()