一、项目背景
在数字化浪潮席卷全球的当下,电商行业呈现出蓬勃发展的态势。对于电商企业而言,深入了解用户的消费行为不仅是制定精准营销策略、优化产品与服务的关键,更是在激烈的市场竞争中提升自身竞争力的核心要素。本分析聚焦于电子产品销售领域,通过对电子产品销售数据以及 2024 年各省人口数量数据进行深度挖掘与剖析,旨在清晰洞察电商用户在电子产品消费过程中的行为模式与特点,从而为电商企业的战略决策提供坚实有力的数据支持与理论依据。
二、数据来源与处理
1.数据来源
本研究的数据主要来源于两个部分:人口数据来自 “population_data.xlsx” 文件,其中包含全国各省的人口总数信息;销售数据源自 “sales_data.csv” 文件,涵盖了订单编号、产品 ID、销售金额、购买时间、地区等多个关键字段。这些数据全面记录了电子产品销售的各个环节以及消费者的基本信息,为后续的深入分析奠定了基础。
- 数据处理
(1)数据清洗
缺失值处理:在销售数据中,对于订单编号、销售金额等关键信息存在缺失的记录,为确保数据的准确性和有效性,直接进行删除处理;而对于人口数据中个别省份人口数量缺失的情况,通过查阅权威的统计资料,如国家统计局发布的统计年鉴等,对缺失值进行了补充,从而保证了数据的完整性。
#删除销售数据中关键信息缺失的记录
sales_data.dropna(subset=['order_id','price'],inplace=True)
#补充人口数据中缺失的省份人口数量(假设已获取到补充数据并存储在字典中)
missing_population={'地区1':12345678,'地区2':98765432}
population_data['人口数']=population_data['地区'].apply(lambda x:missing_population[x] if x in missing_population else
population_data['人口数'][population_data['地区']==x].values[0])
重复值处理:利用数据处理工具,对销售数据中的重复订单记录进行了细致查找,并将其全部删除,确保每一条记录都具有唯一性,有效避免了重复数据对后续分析结果可能产生的干扰,使得分析结果更加可靠。
#删除销售数据中的重复订单记录
sales_data.drop_duplicates(subset=['order_id'],inplace=True)
数据一致性检查:对产品名称、地区名称等文本字段进行了严格的一致性检查。通过建立规范名称的字典,将不同写法的地区名称统一规范为标准名称,如将 “北京” 规范为 “北京市”,“上海” 规范为 “上海市” 等,极大地保证了数据的准确性和可用性,为后续的数据分析提供了高质量的数据基础。
#规范地区名称(假设存在一个规范名称的字典)
area_mapping = {'北京':'北京市','上海':'上海市'}
sales_data['local']=sales_data['local'].apply(lambda x:area_mapping[x] if x in area_mapping else x)
# 将 sales_data 中的 event_time 列转换为 datetime 类型
sales_data['event_time'] = pd.to_datetime(sales_data['event_time'], errors='coerce')
3.数据整合
通过local字段关联销售数据与人口数据,生成整合数据集merged_data
#将人口数据与销售数据关联
merged_data = pd.merge(sales_data, population_data, left_on='local', right_on='地区', how='left')
#确认 event_time 列的数据类型是否正确
print(merged_data['event_time'].dtype)
三、数据分析
1.总体销售情况分析
(1)销售趋势
按年份季度分析:将购买日期转换为日期时间类型后,按照年份和季度对销售金额进行统计。通过分组聚合操作,得到每个年份季度的销售金额汇总数据,并绘制柱状图。从图中可以看出,2020 年第一季度电子产品的销售金额约为 0.5×10⁷元,第二季度约为 1.4×10⁷元,第三季度达到最高,约为 5.3×10⁷元,第四季度约为 2.5×10⁷元。这种波动可能与新产品发布时间、节假日促销活动以及市场需求的季节性变化等因素有关。
#将购买日期转换为日期时间类型
merged_data['event_time']=pd.to_datetime(merged_data['event_time'])
#按年份和季度统计销售金额
year_quarter_sales = merged_data.groupby([
merged_data['event_time'].dt.year.rename('销售年份'),
merged_data['event_time'].dt.quarter.rename('销售季度')
])['price'].sum().reset_index()
# 重命名列(避免与原始列名冲突)
year_quarter_sales.columns = ['销售年份', '销售季度', '销售金额']
year_quarter_sales['年份季度'] = year_quarter_sales.apply(lambda x: f"{x['销售年份']}Q{x['销售季度']}", axis=1)
plt.figure(figsize=(12, 6))
sns.barplot(x='年份季度', y='销售金额', data=year_quarter_sales)
plt.title('电子产品销售金额按年份季度分布')
plt.xlabel('年份季度')
plt.ylabel('销售金额')
plt.xticks(rotation=45)
plt.show()
年度销售总额趋势:按照年份对销售金额进行分组统计,绘制时间序列折线图。结果显示,从 1970 年到 2020 年,电子产品的年度销售总额呈现出显著的上升趋势。1970 年销售总额约为 0.05×10⁸元,1990 年约为 0.3×10⁸元,到 2020 年约为 0.95×10⁸元。这反映了随着科技的不断进步和人们生活水平的提高,对电子产品的需求持续增长,电子产品市场规模不断扩大。
annual_sales = merged_data.groupby(merged_data['event_time'].dt.year)['price'].sum().reset_index(name='销售金额')
plt.figure(figsize=(12, 6))
sns.lineplot(x='event_time', y='销售金额', data=annual_sales)
plt.title('电子产品年度销售总额趋势')
plt.xlabel('年份')
plt.ylabel('销售总额')
plt.show()
2.用户消费行为分析
(1)购买频率
购买频率:通过对每个用户的购买次数进行计算,并绘制频率分布直方图,发现大部分用户为一次性购买,占比达到 70%,而购买次数在 2 次及以上的用户占比较少,仅为 30%。这表明电商电子产品用户的忠诚度有待提高,企业需要通过推出会员制度、积分奖励、个性化推荐等措施,鼓励用户进行重复购买,增强用户粘性。
user_purchase_count = merged_data.groupby('user_id')['order_id'].count().reset_index()
user_purchase_count.rename(columns={'order_id': '购买次数'}, inplace=True)
plt.figure(figsize=(12, 6))
sns.histplot(user_purchase_count['购买次数'], kde=True,bins=100)
plt.title('用户购买频率分布')
plt.xlabel('购买次数')
plt.ylabel('用户数量')
plt.show()
(2)消费金额分布
消费金额分布:对用户的消费金额进行统计分析,并绘制箱线图。分析结果显示,消费金额的中位数为 2500 元,均值为 3200 元,下四分位数(Q1)为 1500 元,上四分位数(Q3)为 4000 元。存在少数高消费用户拉高了整体均值,通过对消费金额进行分位数分析,发现 60% 的用户消费金额集中在 1000 元至 3500 元之间,这部分用户是电商企业的主要消费群体。企业可以针对这一群体的需求和预算,优化产品定价策略,推出更多性价比高的产品。
plt.figure(figsize=(12, 6))
sns.boxplot(y=merged_data['price'])
plt.title('用户消费金额分布')
plt.ylabel('消费金额')
plt.show()
(3)购买时间偏好
购买时间偏好:将购买时间按照小时进行分组,分析用户购买行为在一天内不同时间段的分布情况,并绘制柱状图。结果表明,晚上 8 点至 11 点(20 - 23 时)是用户购买电子产品的高峰期,该时间段的订单量分别为 6000、5000、3000、2500,总订单量为 16500,而总订单量为 70000,占比约 23.6%。这与消费者在下班后有更多闲暇时间进行网上购物的生活习惯相符。企业可以在该时间段加大广告投放力度,举办限时折扣、满减活动等促销活动,提高销售转化率。
merged_data['购买时间'] = merged_data['event_time'].dt.hour
purchase_time_distribution = merged_data.groupby('购买时间')['order_id'].count().reset_index()
plt.figure(figsize=(12, 6))
sns.barplot(x='购买时间', y='order_id', data=purchase_time_distribution)
plt.title('用户购买时间分布')
plt.xlabel('购买时间(小时)')
plt.ylabel('订单数量')
plt.show()
3.地区消费差异分析
(1)各地区销售金额对比根据整合后的销售数据和人口数据,精确计算各省份的电子产品销售总额,并绘制地图进行直观展示。从地图中可以明显看出,东部沿海地区的销售金额显著高于中西部地区。其中,广东省的销售金额最高,达到 1.6×10⁷元,而部分西部地区省份的销售金额相对较低。这种差异可能与地区经济发展水平、人口密度以及互联网普及程度等多种因素密切相关。经济发达地区通常具有更高的消费能力和更广泛的互联网覆盖,从而促进了电子产品的销售。
province_sales = merged_data.groupby('local')['price'].sum().reset_index()
plt.figure(figsize=(12, 8))
ax = plt.axes(projection=ccrs.PlateCarree())
ax.add_feature(cfeature.COASTLINE)
ax.add_feature(cfeature.LAND, color='coral')
ax.add_feature(cfeature.OCEAN, color='aqua')
ax.add_feature(cfeature.BORDERS, linestyle=':')
ax.set_extent([70, 140, 15, 55])
mapping = {'北京市': (116.4, 39.9), '上海市': (121.47, 31.23)}
lons = []
lats = []
values = []
for index, row in province_sales.iterrows():
if row['local'] in mapping:
lon, lat = mapping[row['local']]
lons.append(lon)
lats.append(lat)
values.append(row['price'])
sc = ax.scatter(lons, lats, c=values, cmap='YlOrRd', s=100, transform=ccrs.PlateCarree())
plt.colorbar(sc, label='销售金额')
plt.title('各地区电子产品销售金额分布')
plt.show()
(2)人均消费分析
为了更深入地分析不同地区的消费能力差异,计算各省份的人均电子产品消费金额(销售总额 / 人口数量),并绘制柱状图。结果显示,北京、上海、浙江等经济发达地区的人均消费金额较高,如海南省人均电子产品消费金额约 0.6 元,天津市约为 0.38 元。而一些人口大省如河南、四川等地,虽然销售总额较高,但人均消费金额相对较低。这表明经济发达地区的消费者在电子产品消费上具有更强的购买力和消费意愿,企业可以根据不同地区的人均消费特点,制定差异化的市场策略,如在经济发达地区推出高端产品,在人均消费较低的地区注重产品的性价比。
province_sales = pd.merge(province_sales, population_data, left_on='local', right_on='地区', how='left')
province_sales['人均消费'] = province_sales['price'] / province_sales['人口数']
plt.figure(figsize=(12, 6))
sns.barplot(x='local', y='人均消费', data=province_sales)
plt.title('各地区人均电子产品消费金额对比')
plt.xlabel('地区')
plt.ylabel('人均消费金额')
plt.xticks(rotation=45)
plt.show()
四、可视化分析
本研究通过柱状图、折线图、箱线图、地图等多种可视化图表,对电子产品销售数据进行了直观展示。在每个图表中,都添加了详细的注释,说明了数据来源、统计范围等信息,确保坐标轴刻度清晰,标签准确,并统一了图表颜色主题,增强了可读性。这些可视化图表清晰地呈现了销售趋势、用户购买频率、消费金额分布以及各地区销售差异等关键信息,便于企业快速理解和把握数据中的潜在规律和特征,为决策提供直观、有效的参考依据。
五、结论与建议
(一)结论
(1)销售趋势:电子产品年度销售总额呈上升趋势,但不同年份季度存在波动,可能受多种因素影响。
(2)用户消费行为:大部分用户为一次性购买,忠诚度低;消费金额集中在一定区间,少数高消费用户影响均值;晚上 8 - 11 点为购买高峰期。
(3)地区消费差异:东部沿海地区销售金额高,经济发达地区人均消费高,地区差异明显。
(二)建议
(1)提升用户忠诚度:建立完善的会员体系,提供专属优惠、优先购买权、生日福利等;设置积分奖励机制,积分可兑换商品或抵扣现金;利用大数据分析用户偏好,进行个性化推荐,提高用户复购率。
(2)优化定价与营销策略:针对主要消费群体,制定合理的产品定价策略,推出性价比高的产品套餐;在购买高峰期加大营销推广力度,举办多样化促销活动,提高销售转化率。
(3)差异化市场布局:对于销售金额高、人均消费高的地区,持续投入资源,推出高端、创新产品,满足品质和时尚需求;对于销售金额低、人均消费低的地区,加强市场调研,推出符合当地需求和消费能力的产品,同时加强互联网基础设施建设和电商普及宣传,挖掘潜在市场。
(注:本项目所使用的数据集已公开,感兴趣的研究者和电商创业者可以基于此数据集,从更多角度进行数据挖掘和分析,共同推动对电商市场的深入理解和研究。希望对大家带来一些帮助,本文也可能存在着些小错误,欢迎指正。)