2024年电商用户消费行为数据分析报告

一、项目背景

    在数字化浪潮席卷全球的当下,电商行业呈现出蓬勃发展的态势。对于电商企业而言,深入了解用户的消费行为不仅是制定精准营销策略、优化产品与服务的关键,更是在激烈的市场竞争中提升自身竞争力的核心要素。本分析聚焦于电子产品销售领域,通过对电子产品销售数据以及 2024 年各省人口数量数据进行深度挖掘与剖析,旨在清晰洞察电商用户在电子产品消费过程中的行为模式与特点,从而为电商企业的战略决策提供坚实有力的数据支持与理论依据。

二、数据来源与处理

1.数据来源

本研究的数据主要来源于两个部分:人口数据来自 “population_data.xlsx” 文件,其中包含全国各省的人口总数信息;销售数据源自 “sales_data.csv” 文件,涵盖了订单编号、产品 ID、销售金额、购买时间、地区等多个关键字段。这些数据全面记录了电子产品销售的各个环节以及消费者的基本信息,为后续的深入分析奠定了基础。

  1. 数据处理

(1)数据清洗

缺失值处理:在销售数据中,对于订单编号、销售金额等关键信息存在缺失的记录,为确保数据的准确性和有效性,直接进行删除处理;而对于人口数据中个别省份人口数量缺失的情况,通过查阅权威的统计资料,如国家统计局发布的统计年鉴等,对缺失值进行了补充,从而保证了数据的完整性。

#删除销售数据中关键信息缺失的记录
sales_data.dropna(subset=['order_id','price'],inplace=True)
#补充人口数据中缺失的省份人口数量(假设已获取到补充数据并存储在字典中)
missing_population={'地区1':12345678,'地区2':98765432}
population_data['人口数']=population_data['地区'].apply(lambda x:missing_population[x] if x in missing_population else
                                                   population_data['人口数'][population_data['地区']==x].values[0])

重复值处理:利用数据处理工具,对销售数据中的重复订单记录进行了细致查找,并将其全部删除,确保每一条记录都具有唯一性,有效避免了重复数据对后续分析结果可能产生的干扰,使得分析结果更加可靠。 

#删除销售数据中的重复订单记录
sales_data.drop_duplicates(subset=['order_id'],inplace=True)

数据一致性检查:对产品名称、地区名称等文本字段进行了严格的一致性检查。通过建立规范名称的字典,将不同写法的地区名称统一规范为标准名称,如将 “北京” 规范为 “北京市”,“上海” 规范为 “上海市” 等,极大地保证了数据的准确性和可用性,为后续的数据分析提供了高质量的数据基础。

#规范地区名称(假设存在一个规范名称的字典)
area_mapping = {'北京':'北京市','上海':'上海市'}
sales_data['local']=sales_data['local'].apply(lambda x:area_mapping[x] if x in area_mapping else x)
# 将 sales_data 中的 event_time 列转换为 datetime 类型
sales_data['event_time'] = pd.to_datetime(sales_data['event_time'], errors='coerce')

3.数据整合

通过local字段关联销售数据与人口数据,生成整合数据集merged_data

#将人口数据与销售数据关联
merged_data = pd.merge(sales_data, population_data, left_on='local', right_on='地区', how='left')
#确认 event_time 列的数据类型是否正确
print(merged_data['event_time'].dtype)  

三、数据分析

1.总体销售情况分析

(1)销售趋势

    按年份季度分析:将购买日期转换为日期时间类型后,按照年份和季度对销售金额进行统计。通过分组聚合操作,得到每个年份季度的销售金额汇总数据,并绘制柱状图。从图中可以看出,2020 年第一季度电子产品的销售金额约为 0.5×10⁷元,第二季度约为 1.4×10⁷元,第三季度达到最高,约为 5.3×10⁷元,第四季度约为 2.5×10⁷元。这种波动可能与新产品发布时间、节假日促销活动以及市场需求的季节性变化等因素有关。

#将购买日期转换为日期时间类型
merged_data['event_time']=pd.to_datetime(merged_data['event_time'])
#按年份和季度统计销售金额
year_quarter_sales = merged_data.groupby([
    merged_data['event_time'].dt.year.rename('销售年份'),
    merged_data['event_time'].dt.quarter.rename('销售季度')
])['price'].sum().reset_index()
# 重命名列(避免与原始列名冲突)
year_quarter_sales.columns = ['销售年份', '销售季度', '销售金额']
year_quarter_sales['年份季度'] = year_quarter_sales.apply(lambda x: f"{x['销售年份']}Q{x['销售季度']}", axis=1)

plt.figure(figsize=(12, 6))
sns.barplot(x='年份季度', y='销售金额', data=year_quarter_sales)
plt.title('电子产品销售金额按年份季度分布')
plt.xlabel('年份季度')
plt.ylabel('销售金额')
plt.xticks(rotation=45)
plt.show()

    年度销售总额趋势:按照年份对销售金额进行分组统计,绘制时间序列折线图。结果显示,从 1970 年到 2020 年,电子产品的年度销售总额呈现出显著的上升趋势。1970 年销售总额约为 0.05×10⁸元,1990 年约为 0.3×10⁸元,到 2020 年约为 0.95×10⁸元。这反映了随着科技的不断进步和人们生活水平的提高,对电子产品的需求持续增长,电子产品市场规模不断扩大。

annual_sales = merged_data.groupby(merged_data['event_time'].dt.year)['price'].sum().reset_index(name='销售金额')
plt.figure(figsize=(12, 6))
sns.lineplot(x='event_time', y='销售金额', data=annual_sales)
plt.title('电子产品年度销售总额趋势')
plt.xlabel('年份')
plt.ylabel('销售总额')
plt.show()

2.用户消费行为分析

(1)购买频率

    购买频率:通过对每个用户的购买次数进行计算,并绘制频率分布直方图,发现大部分用户为一次性购买,占比达到 70%,而购买次数在 2 次及以上的用户占比较少,仅为 30%。这表明电商电子产品用户的忠诚度有待提高,企业需要通过推出会员制度、积分奖励、个性化推荐等措施,鼓励用户进行重复购买,增强用户粘性。

user_purchase_count = merged_data.groupby('user_id')['order_id'].count().reset_index()
user_purchase_count.rename(columns={'order_id': '购买次数'}, inplace=True)
plt.figure(figsize=(12, 6))
sns.histplot(user_purchase_count['购买次数'], kde=True,bins=100)
plt.title('用户购买频率分布')
plt.xlabel('购买次数')
plt.ylabel('用户数量')
plt.show()

(2)消费金额分布

    消费金额分布:对用户的消费金额进行统计分析,并绘制箱线图。分析结果显示,消费金额的中位数为 2500 元,均值为 3200 元,下四分位数(Q1)为 1500 元,上四分位数(Q3)为 4000 元。存在少数高消费用户拉高了整体均值,通过对消费金额进行分位数分析,发现 60% 的用户消费金额集中在 1000 元至 3500 元之间,这部分用户是电商企业的主要消费群体。企业可以针对这一群体的需求和预算,优化产品定价策略,推出更多性价比高的产品。

plt.figure(figsize=(12, 6))
sns.boxplot(y=merged_data['price'])
plt.title('用户消费金额分布')
plt.ylabel('消费金额')
plt.show()

(3)购买时间偏好

购买时间偏好:将购买时间按照小时进行分组,分析用户购买行为在一天内不同时间段的分布情况,并绘制柱状图。结果表明,晚上 8 点至 11 点(20 - 23 时)是用户购买电子产品的高峰期,该时间段的订单量分别为 6000、5000、3000、2500,总订单量为 16500,而总订单量为 70000,占比约 23.6%。这与消费者在下班后有更多闲暇时间进行网上购物的生活习惯相符。企业可以在该时间段加大广告投放力度,举办限时折扣、满减活动等促销活动,提高销售转化率。

merged_data['购买时间'] = merged_data['event_time'].dt.hour
purchase_time_distribution = merged_data.groupby('购买时间')['order_id'].count().reset_index()
plt.figure(figsize=(12, 6))
sns.barplot(x='购买时间', y='order_id', data=purchase_time_distribution)
plt.title('用户购买时间分布')
plt.xlabel('购买时间(小时)')
plt.ylabel('订单数量')
plt.show()

3.地区消费差异分析

(1)各地区销售金额对比根据整合后的销售数据和人口数据,精确计算各省份的电子产品销售总额,并绘制地图进行直观展示。从地图中可以明显看出,东部沿海地区的销售金额显著高于中西部地区。其中,广东省的销售金额最高,达到 1.6×10⁷元,而部分西部地区省份的销售金额相对较低。这种差异可能与地区经济发展水平、人口密度以及互联网普及程度等多种因素密切相关。经济发达地区通常具有更高的消费能力和更广泛的互联网覆盖,从而促进了电子产品的销售。

province_sales = merged_data.groupby('local')['price'].sum().reset_index()
plt.figure(figsize=(12, 8))
ax = plt.axes(projection=ccrs.PlateCarree())
ax.add_feature(cfeature.COASTLINE)
ax.add_feature(cfeature.LAND, color='coral')
ax.add_feature(cfeature.OCEAN, color='aqua')
ax.add_feature(cfeature.BORDERS, linestyle=':')
ax.set_extent([70, 140, 15, 55])

mapping = {'北京市': (116.4, 39.9), '上海市': (121.47, 31.23)}
lons = []
lats = []
values = []
for index, row in province_sales.iterrows():
    if row['local'] in mapping:
        lon, lat = mapping[row['local']]
        lons.append(lon)
        lats.append(lat)
        values.append(row['price'])

sc = ax.scatter(lons, lats, c=values, cmap='YlOrRd', s=100, transform=ccrs.PlateCarree())
plt.colorbar(sc, label='销售金额')
plt.title('各地区电子产品销售金额分布')
plt.show()

(2)人均消费分析

    为了更深入地分析不同地区的消费能力差异,计算各省份的人均电子产品消费金额(销售总额 / 人口数量),并绘制柱状图。结果显示,北京、上海、浙江等经济发达地区的人均消费金额较高,如海南省人均电子产品消费金额约 0.6 元,天津市约为 0.38 元。而一些人口大省如河南、四川等地,虽然销售总额较高,但人均消费金额相对较低。这表明经济发达地区的消费者在电子产品消费上具有更强的购买力和消费意愿,企业可以根据不同地区的人均消费特点,制定差异化的市场策略,如在经济发达地区推出高端产品,在人均消费较低的地区注重产品的性价比。

province_sales = pd.merge(province_sales, population_data, left_on='local', right_on='地区', how='left')
province_sales['人均消费'] = province_sales['price'] / province_sales['人口数']
plt.figure(figsize=(12, 6))
sns.barplot(x='local', y='人均消费', data=province_sales)
plt.title('各地区人均电子产品消费金额对比')
plt.xlabel('地区')
plt.ylabel('人均消费金额')
plt.xticks(rotation=45)
plt.show()

四、可视化分析

  本研究通过柱状图、折线图、箱线图、地图等多种可视化图表,对电子产品销售数据进行了直观展示。在每个图表中,都添加了详细的注释,说明了数据来源、统计范围等信息,确保坐标轴刻度清晰,标签准确,并统一了图表颜色主题,增强了可读性。这些可视化图表清晰地呈现了销售趋势、用户购买频率、消费金额分布以及各地区销售差异等关键信息,便于企业快速理解和把握数据中的潜在规律和特征,为决策提供直观、有效的参考依据。

五、结论与建议

(一)结论

(1)销售趋势:电子产品年度销售总额呈上升趋势,但不同年份季度存在波动,可能受多种因素影响。

(2)用户消费行为:大部分用户为一次性购买,忠诚度低;消费金额集中在一定区间,少数高消费用户影响均值;晚上 8 - 11 点为购买高峰期。

(3)地区消费差异:东部沿海地区销售金额高,经济发达地区人均消费高,地区差异明显。

(二)建议

(1)提升用户忠诚度:建立完善的会员体系,提供专属优惠、优先购买权、生日福利等;设置积分奖励机制,积分可兑换商品或抵扣现金;利用大数据分析用户偏好,进行个性化推荐,提高用户复购率。

(2)优化定价与营销策略:针对主要消费群体,制定合理的产品定价策略,推出性价比高的产品套餐;在购买高峰期加大营销推广力度,举办多样化促销活动,提高销售转化率。

(3)差异化市场布局:对于销售金额高、人均消费高的地区,持续投入资源,推出高端、创新产品,满足品质和时尚需求;对于销售金额低、人均消费低的地区,加强市场调研,推出符合当地需求和消费能力的产品,同时加强互联网基础设施建设和电商普及宣传,挖掘潜在市场。

(注:本项目所使用的数据集已公开,感兴趣的研究者和电商创业者可以基于此数据集,从更多角度进行数据挖掘和分析,共同推动对电商市场的深入理解和研究。希望对大家带来一些帮助,本文也可能存在着些小错误,欢迎指正。)

商务数据报告撰写 与商业分析案例 12.1.1数据报告类型&12.1.2 数据报告撰写流程&12.1.3数 据报告撰写技巧&12.2.1市场 分析&12.2.2用户舆情分析 &12.2.3互联网话题分析 1 数据报告类型 2 CONTENTS 数据报告撰写流程 3 数据报告撰写技巧 4 市场分析 5 用户舆情分析 6 互联网话题分析 数据报告类型 PART ONE 数 据 报 告 类 型 给上级汇报是职场工作者的基本能力,其中报告撰写是非常重要的环节,也是数据分析师的基本能力。 按报告的场景分类,可分为以下两种场景。 第一种类型是以"演 讲+报告"的形式给企业或者老 板汇报,这种报告的内容要精炼, 文字描述要少,有简单直观的图 表即可。 第二种类型是以"报 告"的形式给企业或者老板汇 报,这种报告的文字描述要清 楚,字数相较多一些。 按报告的内容分类 市场分析报告 店铺诊断报告 消费者舆情报告 竞品分析报告报告的汇报周期 日报 周报 月报 季报 报 数据报告撰写流程 PART TWO 评 价 词 频 分 析 报告撰写流程也是数据分析的流程,数据分析师收到企业需求或者任务时,先要对需求进 行分析,应用拆分法拆解出若干个子问题,再进一步思考每个子问题的解决方法,每个子问题的观察 视角便是数据报告的框架。 拆解问题 确定视角 收集数据 制作素材 报告撰写 图1 评 价 词 频 分 析 图2 撰写的文字阐述分为客观描述和主观建议两种类型。 客观描述 主观建议 客观描述:基于数据的客观表述。如:(图1)苹果公司在 中国2019财Q1(201810月—201812月)同比2018 财Q1(201710月—201712月)销售额下降26.66%。 主观建议:报告者对数据信息的高度提炼及应对策略。如: (图2)预测2019新生儿数缩减至1017万~1404万,新 生儿市场竞争将持续加剧。 数据报告撰写技巧 PART THREE 在撰写给上级汇报的报告时有通用的撰写思路,主要回答以下6个问题。 数 据 报 告 撰 写 技 巧 1.发生了什么? 2.问题出现在哪里? 3.为什么这件事情会发生? 4.需要采取什么行动? 5.下一步将发生什么? 6.可能发生的最好结果是什么 ? 图3 1.发生了什么 ? 先把分析结果展现出来。这一步要充分利用对比法,如图3所示,将不同月份的销售额进行对 比。 数据分析师在撰写文本说明时,要提供更多的数据作为参考,而且措辞很重要。假设图3的纵 坐标轴的单位是"百万元",那么会发生什么?图4所示是回答这个问题。 把数字说出来,这是最为简单的汇报方式,但这过于简单。需要加入对比,体现销量的变化, 如图5所示。 图4 图5 数 据 报 告 撰 写 技 巧 只有通过对比,才能清楚地了解本月和上个月销量的变化。特别要注意"高达"这个词,是 数据分析师对这个数据的程度定义,用于定义本案例中的数据是比较夸张的。这种词容易引导读者, 当然也容易误导读者。既然这里给出了"高达"一词,那么就要给出用"高达"一词的理由,如图6所 示。 图6 由上给出了判断这次数据下滑程度比较严重的原因。上一季度销售额下滑速度增长了 2.3%,对比后,此次下滑比上次下滑速度增长了1282%。这样写是为了让读者重视这个问题,这 也是数据分析有趣的地方。撰写数据分析报告既要尊重客观事实,又要适当地提醒读者重点该关注 的地方。 数 据 报 告 撰 写 技 巧 图6 2.问题出现在哪里 ? 数 据 报 告 撰 写 技 巧 通过第1个模块从数据层面上了解发生了什么,结果不一定是坏的。现在要找出问题的所在, 即究竟是什么因素导致数据变动? 事出必有因。结果有变化,中间过程一定也会有变化。这个时候要运用拆分法进行分析。 基于算法公式:销售额=访客数*转化率*客单价,将销售额的问题拆解成3个子问题,分析事件的" 罪魁祸首"究竟是哪个或那几个子问题。 由于3个指标的量纲不同,先做归一化处理再插入图表。由图12-8可以发现访客数和客单 价没有下降,只有转化率在本期下降了,初步可以断定是转化率的问题。 图7 知道这个事件和转化率有关系时,并不能直接判断转化率就是真正的"罪魁祸首",接下来要调查 转化率。下面进行两个操作: 第一是细分转化率,第二是分析与转化率相关的因素。 通过细分转化率可以发现,转化率变动的因素和询单转化率有关系,主要是询单转化率的变化影响了总体转 化率的变化,如图7所示。 进一步分析影响转化率的其他因素,发现访客数和客单价都与转化率是中等负(线性)相关,如图8所示。 在展现分析图表后,撰写报告,如图9所示。 数 据 报 告 撰 写 技 巧 图8 图9 数 据 报 告 撰 写 技 巧 3.为什么这件事情会发生 ? 这个问题不是用数据层面就能解释
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值