【大数据毕设选题】大数据电商用户行为分析 -python 大数据

本文介绍了基于2014年淘宝APP用户行为数据的分析项目,涉及数据清洗、日访问量、用户行为分析(如PV/UV、行为类型、消费行为)、ARPPU计算、复购情况和漏斗流失模型。作者详细展示了数据处理过程和关键指标的结果,为毕业设计提供了有价值的参考。
摘要由CSDN通过智能技术生成


0 前言

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是

🚩 基于大数据的淘宝用户行为分析

🥇学长这里给一个题目综合评分(每项满分5分)

  • 难度系数:3分
  • 工作量:3分
  • 创新点:3分

1 背景描述

针对项目:淘宝用户分析使用。2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元。相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息、用户访问的时间规律等。

本次大赛以阿里巴巴移动电商平台的真实用户-
商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。

2 项目背景

本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。

3 提出问题

  1. 日PV有多少
  2. 日UV有多少
  3. 付费率情况如何
  4. 复购率是多少
  5. 漏斗流失情况如何
  6. 用户价值情况

4 理解数据

本数据集共有104万条左右数据,数据为淘宝APP2014年11月18日至2014年12月18日的用户行为数据,共计6列字段,列字段分别是:

user_id:用户身份,脱敏

item_id:商品ID,脱敏

behavior_type:用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示)

user_geohash:地理位置

item_category:品类ID(商品所属的品类)

time:用户行为发生的时间

5 数据清洗

 import pandas as pd
    import numpy as py
    %matplotlib inline
    import matplotlib.pyplot as plt
    import seaborn as sns
    data_user = pd.read_csv('/home/kesci/input/taobao1920/tianchi_mobile_recommend_train_user.csv')

5.1缺失值处理

  #缺失值处理
    missingTotal = data_user.isnull().sum()
    missingExist = missingTotal[missingTotal>0]
    missingExist = missingExist.sort_values(ascending=False)
    print(missingTotal)

user_id 0
item_id 0
behavior_type 0
user_geohash 8334824
item_category 0
time 0
dtype: int64

存在缺失值的是User_geohash,有717785条,不能删除缺失值,因为地理信息在数据集收集过程中做过加密转换,因此对数据集不做处理。

5.2查看数据

 print(data_user.head())

在这里插入图片描述

5.3一致化处理

    #一致化处理
    import re
    #拆分数据集
    data_user['date'] = data_user['time'].map(lambda s: re.compile(' ').split(s)[0])
    data_user['hour']=data_user['time'].map(lambda s:re.compile(' ').split(s)[1])
    data_user.head()

在这里插入图片描述

5.4查看data_user数据集数据类型:


​ data_user.dtypes

user_id int64
item_id int64
behavior_type int64
user_geohash object
item_category int64
time object
date object
hour object
dtype: object

5.5数据类型转换

​ #发现time列和date列应该转化为日期类数据类型,hour列应该是整数数据类型。

​ #数据类型转化

data_user['date']=pd.to_datetime(data_user['date'])
data_user['time']=pd.to_datetime(data_user['time'])
data_user['hour']=data_user['hour'].astype('int64')
data_user.dtypes

user_id int64
item_id int64
behavior_type int64
user_geohash object
item_category int64
time datetime64[ns]
date datetime64[ns]
hour int64
dtype: object

5.6异常值处理

   #异常值处理
    data_user = data_user.sort_values(by='time',ascending=True)
    data_user = data_user.re
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值