基于Python实现连锁咖啡店经营情况EDA分析【500010097】

导入模块

import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.express as px

获取数据

df = pd.read_csv(r'./data/coffeeshop.csv')
data_exploration(df)

image.png

数据背景描述

本数据集包含了一家全国连锁咖啡店品牌的全国各区域门店某月的销售数据、利润数据,以及门店基础数据。

  • 销售数据:关注咖啡店的销售额、销售量、销售增长率等数据。销售数据是衡量经营状况的关键指标,能够显示店铺的整体业绩。
  • 利润数据:了解咖啡店的成本结构和利润率,分析其盈利能力和效率。
  • 门店数据:关注门店数量、位置分布、门店规模等信息。了解门店的地理分布和规模对拓展和管理战略至关重要。

数据说明

字段说明
门店编号 (Store_ID)每个门店的唯一标识。
区域 (Region)门店所在的区域或城市。
销售额 (Sales)门店的销售总额,以人民币(RMB)为单位。
利润 (Profit)门店的利润总额,以人民币(RMB)为单位。
顾客数量 (Customers)门店的总顾客数量。
平均交易金额 (Avg_Transaction)每位顾客的平均交易金额。
员工数 (Staff_Count)门店的员工数量。
门店面积 (Store_Area)门店的营业面积,以平方米为单位。
租金 (Rent)门店的租金费用,以人民币(RMB)为单位。
开业日期 (Opening_Date)门店的开业日期。

数据缺失值情况

print('数据缺失值情况:')
df.isnull().sum().to_frame().T.style.set_properties(**{"background-color": "#0d3b66","color":"white","border": "1.5px solid white"})
print(df.isnull().sum().to_frame().T)

image.png

数值型特征统计信息

print('数值型特征统计信息:')
df.describe().T.style.set_properties(**{"background-color": "#0d3b66","color":"white","border": "1.5px solid white"})
print(df.describe().T)

image.png

非数值型特征统计信息

print('非数值型特征统计信息:')
df.describe(include = 'object').T.style.set_properties(**{"background-color": "#0d3b66","color":"white","border": "1.5px solid white"})
print(df.describe(include = 'object').T)

image.png

数据前五行

print('数据前五行:')
df.head().style.set_properties(**{"background-color": "#0d3b66","color":"white","border": "1.5px solid white"})
print(df.head())

image.png

数据可视化

数据处理

df.columns = ['门店编号','区域','销售额','利润','顾客数量','平均交易金额','员工数','门店面积','租金','开业日期']
df['门店均价'] = df['租金'] / df['门店面积']
df['利润率%'] = df['利润'] / df['销售额'] * 100

店铺数量、销售额、利润、员工数统计

该连锁咖啡店目前共有100家店铺,716万的销售额,利润总额为383万,员工总数为1084人。
newplot.png

销售额和利润排名

从统计数据可以看到,销售额和利润前三的城市是:南京,徐州和苏州;平均销售额和平均利润最高的是上海。

# 汇总销售额和利润
moneydf = df.groupby(['区域']).agg({'销售额':['sum','mean'],'利润':['sum','mean']}).reset_index()
moneydf = moneydf.sort_values(by = ('销售额','sum'),ascending = False)

newplot (1).png
newplot (2).png

平均利润率

平均利润率排名前三城市为:哈尔滨市,大庆市,广州市。

# 计算平均利润率
profitdf = df.groupby(['区域']).agg({'利润率%':'mean'}).reset_index()
profitdf = profitdf.sort_values(by = '利润率%')
profitdf['成本占比%'] = 100 - profitdf['利润率%']

newplot (3).png

门店均价排名

普洱市的门店均价是最高的,为159.333元/平方米。

housedf = df.groupby('区域').agg({'门店均价':'mean'}).reset_index()
housedf = housedf.sort_values(by = '门店均价')

newplot (4).png

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

神仙别闹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值