利用python分析电商_Python电商数据分析实战

本文通过Python分析淘宝用户行为数据,揭示业务现状和问题。数据清洗后,对用户行为进行深入分析,包括流失和转化率、时间模式及商品类别。发现购买转化率低,周末用户活跃度高,晚上流量高峰,部分商品点击量高但购买量低,提出优化筛选功能、活动时间安排、商品推送策略等建议。
摘要由CSDN通过智能技术生成

一、分析思路

通过对淘宝用户行为数据进行分析,展现业务现状和解决一些业务问题。分析思路如下:

1991103-20200330231905778-1164108288.png

二、数据背景

1991103-20200330232937417-1430206439.png

三、数据清洗

① 导入数据

此处仅用python导入2000000条数据进行分析,源数据没有列名,加上列名。

import pandas as pd

import matplotlib.pyplot as plt

import datetime

data = pd.read_csv('project/UserBehavior.csv', header=None, nrows=2000000,

names=['user_id', 'item_id', 'category_id', 'behavior_type', 'time'])

print(data.head())

1991103-20200330233844509-1310420639.png

② 缺失数据处理

print(data.isnull().sum())

1991103-20200330234034953-898957379.png

没有缺失值,无须删除空值数据。

③ 对time列时戳值转换类型,并拆分time列成date和hour

data['time'] = pd.to_datetime(data['time'], unit='s') + datetime.timedelta(hours=8)

print(data.head())

1991103-20200330234508016-55464854.png

data['date'] = data['time'].map(lambda x: x.strftime('%Y-%m-%d %H').split(' ')[0])

data['hour'] = data['time'].map(lambda x: x.strftime('%Y-%m-%d %H').split(' ')[1])

pd.set_option('display.max_columns', 10)

print(data.head())

1991103-20200330234739171-1078438855.png

④ 将数据按date、hour列排序,重置索引;删除超出时间范围的异常数据

data = data.sort_values(by=['date', 'hour'], ascending=True)

data = data.reset_index(drop=True)

print(data.head(10))

1991103-20200330235321804-629259529.png

df_bool = (data.loc[:, 'date'] > '2017-11-24') & (data.loc[:, 'date'] < '2017-12-04')

data = data.loc[df_bool, :].reset_index(drop=True)

print(data.head(10))

1991103-20200330235547616-1050065283.png

四、数据分析

(1)流失和转化分析

① pv点击量到购买量的转化

用户行为统计数量:

pv_convert_data = data['behavior_type'].value_counts()

print(pv_convert_data)

1991103-20200331000247349-1120227397.png

pv的转

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值