淘宝用户行为分析项目:Python

基于2014年淘宝App数据,本文通过Python进行用户行为分析,涵盖数据预处理、用户行为与消费行为分析,揭示用户活跃时段、购物习惯,以及RFM模型的应用,旨在提升购买转化率和用户活跃度。
摘要由CSDN通过智能技术生成

一、分析背景

  网购已经成为人们生活不可或缺的一部分,本次项目基于淘宝app平台数据,通过相关指标对用户行为进行分析,从而探索用户相关行为模式。

       本文使用的数据集包含了2014.11.18到2014.12.18之间,淘宝App移动端一个月内的用户行为数据。该数据有12256906条记录,共6列数据。

 数据链接:数据集-阿里云天池

  • user_id:用户身份

  • item_id:商品id

  • behavior_type:用户行为类型(包括点击、收藏、加入购物车、支付四种行为,分别用数字1、2、3、4表示)

  • user_geohash:地理位置

  • item_category:品类id(商品所属的分类)

  • time:用户行为发生的时间

二、分析框架

三、分析及可视化

1、导入相关库

%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib as  mpl
import matplotlib.pyplot as  plt
import seaborn as sns
from datetime import datetime
import warnings

mpl.rcParams["font.family"] = "SimHei"
mpl.rcParams["axes.unicode_minus"] = False

warnings.filterwarnings('ignore')

2、数据预处理

2.1 数据预览

df = pd.read_csv("tianchi_mobile_recommend_train_user.csv",dtype=str)
df.shape
df.info()
df.sample(10)

 2.2 计算缺失率

df.isnull().sum()/len(df['user_id'])

  2.3 删除地理位置这一列

del df['user_geohash']
df.head()

 2.4 处理时间time列,将该列拆分为date日期列,和hour小时列

df['date'] = df['time'].str[0:10]
df['hour'] = df['time'].str[11:]
df.head()

 2.5 将time、date列都变为标准日期格式,将hour列变为int格式

df['date'] = pd.to_datetime(df['date'])
df["time"] = pd.to_datetime(df["time"])
df["hour"] = df["hour"].astype(int)
df.info()

 2.6 将数据按照time列,升序排列并生成新的索引

df = df.sort_values(by='time',ascending=True).reset_index(drop=True)
df.head()

 2.7 查看数据的分布

df.describe(include='all')

 2.8 对时间数据做一个概览

df["date"].unique()

3、用户行为分析

3.1 计算PV和UV

total_pv = df["user_id"].count()
total_pv
total_uv = df["user_id"].nunique()
total_uv

      从图中可以看到,该网站页面的总浏览量为12256906次,该页面的独立访客数共有10000个。

3.2 日期维度下的PV和UV

pv_daily = df.groupby('date')['user_id'].count().reset_index()
uv_daily = df.groupby('date')['user_id'].nunique().reset_index()
pv_uv_daily = pv_daily.merge(uv_daily,how='left',on='date')
pv_uv_daily.columns = ['date',"pv","uv"]
pv_uv_daily.head()
pv_daily.set_index('date',inplace=True)
uv_daily.set_index('date',inplace=True)

plt.figure(figsize=(16,10))
plt.subplot(211)
plt.plot(pv_daily['user_id'],c="r")
plt.title("每天页面的总访问量(PV)")
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.subplot(212)
plt.plot(uv_daily['user_id'],c="g")
plt.title(
  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值