Pandas简易入门指南

旦莫

于 2024-06-18 14:40:42 发布

阅读量868

点赞数 5

本文链接：https://blog.csdn.net/weixin_40025666/article/details/139772342

版权

Python Pandas 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1.介绍

2.安装Pandas

3.Pandas的基本使用

数据结构：Series和DataFrame

1.介绍

在数据科学和数据分析的世界中，Pandas库以其强大的数据处理能力而闻名。作为一个基于Python的开源库，Pandas提供了快速、灵活和富有表现力的数据结构，旨在使数据处理变得简单和直观。无论是处理时间序列数据、统计数据分析，还是进行数据清洗和准备，Pandas都是数据科学家的首选工具之一。

2.安装Pandas

在开始使用Pandas之前，你需要确保它已经安装在你的Python环境中。如果你还没有安装Pandas，可以通过以下命令轻松安装：

pip install pandas

安装完成后，你可以通过以下方式导入Pandas库：

import pandas as pd

3.Pandas的基本使用

数据结构：Series和DataFrame

Pandas的核心是两个主要的数据结构：Series和DataFrame。Series是一种一维标记数组，可以存储任何数据类型。DataFrame则是一个二维表格，可以看作是Series对象的字典。

创建Series

import pandas as pd

data = [1, 2, 3, 4, 5]
series = pd.Series(data)
print(series)

创建DataFrame

import pandas as pd

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
}
df = pd.DataFrame(data)
print(df)

数据读取

Pandas支持从多种文件格式读取数据，包括CSV、Excel、SQL等。

读取CSV文件

df = pd.read_csv('data.csv')
print(df.head())

读取Excel文件

df = pd.read_excel('data.xlsx')
print(df.head())

数据选择与过滤

选择列

print(df['name'])

选择行

print(df.iloc[0])  # 根据索引选择
print(df.loc[0])   # 根据标签选择

条件过滤

filtered_df = df[df['age'] > 30]
print(filtered_df)

数据处理

增加新列

df['salary'] = [50000, 60000, 70000]

数据清洗

处理缺失值：

df = df.dropna()  # 删除缺失值
df = df.fillna(0) # 用0替换缺失值

4.Pandas的高级使用

数据聚合与分组

分组操作

grouped = df.groupby('age')
print(grouped.mean())

聚合操作

agg_df = df.groupby('age').agg({'salary': 'mean', 'age': 'count'})
print(agg_df)

数据合并

合并两个DataFrame

df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value': [4, 5, 6]})
merged_df = pd.merge(df1, df2, on='key')
print(merged_df)

5.实际项目应用

实例：分析销售数据

我们来构建一个实际的项目，分析一家公司的销售数据。

读取数据

sales_df = pd.read_csv('sales_data.csv')
print(sales_df.head())

数据清洗

sales_df = sales_df.dropna()  # 删除缺失值
sales_df['date'] = pd.to_datetime(sales_df['date'])  # 转换日期格式

数据分析

按月汇总销售额：

monthly_sales = sales_df.groupby(sales_df['date'].dt.to_period('M')).sum()
print(monthly_sales)

可视化

import matplotlib.pyplot as plt

monthly_sales.plot()
plt.title('Monthly Sales')
plt.xlabel('Month')
plt.ylabel('Sales')
plt.show()

机器学习中的应用

Pandas也可以用于准备机器学习模型的数据。

特征工程

sales_df['year'] = sales_df['date'].dt.year
sales_df['month'] = sales_df['date'].dt.month

训练模型

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

X = sales_df[['year', 'month']]
y = sales_df['sales']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
print(predictions)

6.应用领域

Pandas库作为一个强大的数据分析工具，广泛应用于多个领域。下面，我们详细介绍一下Pandas在各个领域中的具体应用。

1. 金融数据分析

股票市场分析

Pandas能够非常方便地处理时间序列数据，这使得它在金融数据分析中表现尤为突出。你可以使用Pandas读取、清洗、分析股票市场数据，进行技术指标计算，构建回测系统等。

示例：

import pandas as pd
import yfinance as yf

# 获取股票数据
data = yf.download("AAPL", start="2020-01-01", end="2022-01-01")

# 计算移动平均线
data['MA50'] = data['Close'].rolling(window=50).mean()

# 绘制股票价格与移动平均线
data[['Close', 'MA50']].plot()

风险管理和资产组合优化

Pandas可以用于计算投资组合的收益率、风险和相关性，帮助进行资产配置和优化投资组合。

示例：

returns = data['Close'].pct_change()
cov_matrix = returns.cov()
print(cov_matrix)

2. 市场营销

客户分析

在市场营销中，了解客户行为和特征是至关重要的。Pandas可以用来分析客户数据，进行客户细分和行为预测。

示例：

import pandas as pd

# 读取客户数据
data = pd.read_csv('customer_data.csv')

# 分析客户消费频率
purchase_frequency = data.groupby('customer_id')['purchase_amount'].count()
print(purchase_frequency.describe())

效果分析

营销活动结束后，Pandas可以帮助分析活动效果，比如计算点击率、转化率、投资回报率等。

示例：

# 计算点击率
click_through_rate = data['clicks'] / data['impressions']
print(click_through_rate.mean())

3. 科研数据处理

实验数据分析

科研工作中，经常需要处理大量的实验数据。Pandas可以用于数据清洗、统计分析和数据可视化。

示例：

import pandas as pd

# 读取实验数据
data = pd.read_csv('experiment_data.csv')

# 计算均值和标准差
mean_value = data['measurement'].mean()
std_value = data['measurement'].std()
print(f"Mean: {mean_value}, Std: {std_value}")

图表绘制

Pandas配合Matplotlib等可视化库，可以绘制各种图表，直观展示实验结果。

示例：

import matplotlib.pyplot as plt

# 绘制数据分布图
data['measurement'].hist()
plt.title('Measurement Distribution')
plt.xlabel('Measurement')
plt.ylabel('Frequency')
plt.show()

4. 运营数据分析

业务流程优化

企业运营中，Pandas可以用于分析运营数据，识别瓶颈和优化业务流程。

示例：

import pandas as pd

# 读取生产数据
data = pd.read_csv('production_data.csv')

# 计算生产周期时间
cycle_time = data['end_time'] - data['start_time']
print(cycle_time.describe())

绩效评估

Pandas可以帮助企业分析员工绩效，为绩效评估和奖励机制提供数据支持。

示例：

# 计算员工销售额
employee_sales = data.groupby('employee_id')['sales_amount'].sum()
print(employee_sales)

5. 社会科学研究

人口统计分析

社会科学研究中，Pandas可以用于分析人口统计数据，进行数据分组和汇总。

示例：

import pandas as pd

# 读取人口统计数据
data = pd.read_csv('population_data.csv')

# 按年龄分组统计
age_groups = data.groupby('age_group')['population'].sum()
print(age_groups)

社会现象研究

通过Pandas，研究人员可以处理大规模调查数据，进行社会现象的定量分析。

示例：

# 计算不同收入群体的满意度
satisfaction_by_income = data.groupby('income_level')['satisfaction'].mean()
print(satisfaction_by_income)

6. 医疗数据分析

病人数据管理

在医疗领域，Pandas可以用于处理病人数据，分析病人健康状况和治疗效果。

示例：

import pandas as pd

# 读取病人数据
data = pd.read_csv('patient_data.csv')

# 计算平均血压
average_bp = data['blood_pressure'].mean()
print(f"Average Blood Pressure: {average_bp}")

疫情数据分析

Pandas还可以用于分析疫情数据，追踪疫情发展趋势，预测未来情况。

示例：

# 读取疫情数据
data = pd.read_csv('covid_data.csv')

# 按日期汇总新增病例
cases_by_date = data.groupby('date')['new_cases'].sum()
print(cases_by_date)

7. 互联网和技术

日志分析

在互联网公司中，Pandas可以用于分析服务器日志，监控系统性能和用户行为。

示例：

import pandas as pd

# 读取日志数据
data = pd.read_csv('server_logs.csv')

# 统计每小时的请求数
data['datetime'] = pd.to_datetime(data['timestamp'])
requests_per_hour = data.groupby(data['datetime'].dt.hour).size()
print(requests_per_hour)

A/B测试

Pandas可以帮助进行A/B测试的数据分析，比较不同版本的效果。

示例：

# 读取A/B测试数据
data = pd.read_csv('ab_test_data.csv')

# 计算不同版本的转化率
conversion_rate = data.groupby('version')['conversion'].mean()
print(conversion_rate)

8. 教育数据分析

学生成绩分析

在教育领域，Pandas可以用于分析学生成绩数据，评估教学效果。

示例：

import pandas as pd

# 读取学生成绩数据
data = pd.read_csv('student_scores.csv')

# 计算每个学生的平均成绩
average_scores = data.groupby('student_id')['score'].mean()
print(average_scores)

教学资源分配

Pandas还可以帮助分析教学资源的分配情况，优化资源使用。

示例：

# 读取教学资源数据
data = pd.read_csv('teaching_resources.csv')

# 统计每个学科的资源分配情况
resources_by_subject = data.groupby('subject')['resources_allocated'].sum()
print(resources_by_subject)

数据很重要！数据很重要！数据很重要！重要的事说三遍

旦莫

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas简易入门指南

在数据科学和数据分析的世界中，Pandas库以其强大的数据处理能力而闻名。作为一个基于Python的开源库，Pandas提供了快速、灵活和富有表现力的数据结构，旨在使数据处理变得简单和直观。无论是处理时间序列数据、统计数据分析，还是进行数据清洗和准备，Pandas都是数据科学家的首选工具之一。
复制链接

扫一扫