网易云音乐用户消费行为分析

ak2111

已于 2024-04-03 12:09:55 修改

阅读量2.4k

点赞数 61

分类专栏： Python 文章标签： pandas jupyter python numpy matplotlib

于 2024-03-30 02:00:00 首次发布

本文链接：https://blog.csdn.net/ak2111/article/details/137155690

版权

背景

网易云音乐大家都被大家所熟知 , 数据脱敏之后，形成了文本数据。
本节主要通过分析网易云音乐的用户购买明细来分析该网站的用户消费行为，使运营业务部门在营销时更加具有针对性，从而节省成本，提升效率。

提出问题

对用户进行消费特征分析。分析框架如下：
在这里插入图片描述

数据处理

导入数据

#导入常用的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.style.use(‘ggplot’) #更改设计风格，使用自带的形式进行美化
plt.rcParams[“font.sans-serif”] = [“SimHei”] # 用来显示中文
plt.rcParams[“axes.unicode_minus”] = False # 用来显示负号

seq标识分隔符，分隔符为\t ，即制表符，表示列与列之间用\t分开

df = pd.read_table(“./wangyiyun.txt”, sep = ‘\s+’)

df
在这里插入图片描述

columns = [‘用户ID’,‘购买日期’,‘订单数’,‘订单金额’]
df = pd.read_table(“./wangyiyun.txt”,names= columns, sep = ‘\s+’)

\f -> 匹配一个换页
\n -> 匹配一个换行符
\r -> 匹配一个回车符
\t -> 匹配一个制表符
而"\s+"则表示匹配任意多个上面的字符
df
在这里插入图片描述

总结

加载包和数据，文件是txt，用read_table方法打开，因为原始数据不包含表头，所以有names参数。字符串是空格分割，用\s+表示匹配任意空白符。
一般csv的数据分隔是以逗号的形式，但是这份数据它是通过多个空格来进行分隔
消费行业或者是电商行业一般是通过订单数，订单额，购买日期，用户ID这四个字段来分析的。基本上这四个字段就可以进行很丰富的分析。

#看看详细信息
df.info()
<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 69659 entries, 0 to 69658
Data columns (total 4 columns):
#Column Non-Null Count Dtype

0 用户ID 69659 non-null int64
1 购买日期 69659 non-null int64
2 订单数 69659 non-null int64
3 订单金额 69659 non-null float64
dtypes: float64(1), int64(3)
memory usage: 2.1 MB
#默认输出前五行
df.head()
在这里插入图片描述

观察数据，购买日期列表示时间，是int类型，数据不是时间类型，需要转换。购买金额是float类型

没有缺失值,这个比较不错

数据中存在一个用户在同一天或不同天下多次订单的情况，如用户ID为2的用户就在1月12日买了两次。

描述性统计

#数值列的汇总统计信息
df.describe()
在这里插入图片描述

describe是描述统计，对用户数据特征进行整体性判断：

从数据的统计描述信息中可以看出，用户每个订单平均购买2.41个商品，每个订单平均消费35.89元。
购买商品数量的标准差为2.33，平均数是 2.4 std/mean 小于0.5(统计学经验来看) 说明 mean更有代表性

中位数为2个商品,75%分位数为3个商品，说明大部分订单的购买数量都不多。最大值在99个，数字比较高。订单金额的情况差不多，大部分订单都集中在小额。

一般而言，消费类的数据分布，都是长尾形态。大部分用户都是小额，然而小部分用户贡献了收入的大头，俗称二八。

数据处理

#索引，数据类型和内存信息
df.info()
<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 69659 entries, 0 to 69658
Data columns (total 4 columns):
#Column Non-Null Count Dtype

0 用户ID 69659 non-null int64
1 购买日期 69659 non-null int64
2 订单数 69659 non-null int64
3 订单金额 69659 non-null float64
dtypes: float64(1), int64(3)
memory usage: 2.1 MB