一、环境准备 在开始之前,确保你的环境中已经安装了Python以及Pandas和Matplotlib库。如果没有安装,可以通过以下命令安装:
pip install pandas matplotlib
二、数据清洗 假设我们有一个CSV文件data.csv,它包含了一些用户信息和交易数据。首先,我们需要对数据进行清洗。
import pandas as pd
读取CSV文件
df = pd.read_csv(‘data.csv’)
清洗数据:去除缺失值
df_clean = df.dropna()
显示清洗后的数据
print(df_clean.head())
三、统计分析 接下来,我们对清洗后的数据进行一些基本的统计分析。
计算平均交易金额
avg_transaction = df_clean[‘transaction_amount’].mean()
print(f"Average transaction amount: {avg_transaction}")
计算交易金额的标准差
std_transaction = df_clean[‘transaction_amount’].std()
print(f"Standard deviation of transaction amount: {std_transaction}")
四、数据可视化 最后,我们使用Matplotlib来可视化数据,例如绘制交易金额的直方图。
复制import matplotlib.pyplot as plt
绘制直方图
plt.hist(df_clean[‘transaction_amount’], bins=20, alpha=0.7, color=‘blue’)
添加标题和标签
plt.title(‘Transaction Amount Distribution’)
plt.xlabel(‘Transaction Amount’)
plt.ylabel(‘Frequency’)
显示图表
plt.show()