一、分析背景
网购已经成为人们生活不可或缺的一部分,本次项目基于淘宝app平台数据,通过相关指标对用户行为进行分析,从而探索用户相关行为模式。
本文使用的数据集包含了2014.11.18到2014.12.18之间,淘宝App移动端一个月内的用户行为数据。该数据有12256906条记录,共6列数据。
数据链接:数据集-阿里云天池
-
user_id:用户身份
-
item_id:商品id
-
behavior_type:用户行为类型(包括点击、收藏、加入购物车、支付四种行为,分别用数字1、2、3、4表示)
-
user_geohash:地理位置
-
item_category:品类id(商品所属的分类)
-
time:用户行为发生的时间
二、分析框架
三、分析及可视化
1、导入相关库
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False
warnings.filterwarnings('ignore')
2、数据预处理
2.1 数据预览
df = pd.read_csv("tianchi_mobile_recommend_train_user.csv",dtype=str)
df.shape
df.info()
df.sample(10)
2.2 计算缺失率
df.isnull().sum()/len(df['user_id'])
2.3 删除地理位置这一列
del df['user_geohash']
df.head()
2.4 处理时间time列,将该列拆分为date日期列,和hour小时列
df['date'] = df['time'].str[0:10]
df['hour'] = df['time'].str[11:]
df.head()
2.5 将time、date列都变为标准日期格式,将hour列变为int格式
df['date'] = pd.to_datetime(df['date'])
df["time"] = pd.to_datetime(df["time"])
df["hour"] = df["hour"].astype(int)
df.info()
2.6 将数据按照time列,升序排列并生成新的索引
df = df.sort_values(by='time',ascending=True).reset_index(drop=True)
df.head()
2.7 查看数据的分布
df.describe(include='all')
2.8 对时间数据做一个概览
df["date"].unique()
3、用户行为分析
3.1 计算PV和UV
total_pv = df["user_id"].count()
total_pv
total_uv = df["user_id"].nunique()
total_uv
从图中可以看到,该网站页面的总浏览量为12256906次,该页面的独立访客数共有10000个。
3.2 日期维度下的PV和UV
pv_daily = df.groupby('date')['user_id'].count().reset_index()
uv_daily = df.groupby('date')['user_id'].nunique().reset_index()
pv_uv_daily = pv_daily.merge(uv_daily,how='left',on='date')
pv_uv_daily.columns = ['date',"pv","uv"]
pv_uv_daily.head()
pv_daily.set_index('date',inplace=True)
uv_daily.set_index('date',inplace=True)
plt.figure(figsize=(16,10))
plt.subplot(211)
plt.plot(pv_daily['user_id'],c="r")
plt.title("每天页面的总访问量(PV)")
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.subplot(212)
plt.plot(uv_daily['user_id'],c="g")
plt.title(