一、需要解决的问题
每日的浏览量,访客量以及时间维度的用户行为分析
二、理解数据
阿里云天池数据:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649
数据集包含了2017年11月25日至2017年12月3日之间的所有行为(行为包括点击、购买、加购、喜欢)。本数据集包含用户数量约100万,商品数量约 400万件,商品类目数量涉及9000多项,所有行为数量约为1亿条。
字段名 | 说明 |
---|---|
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’) |
时间戳 | 行为发生的时间戳 |
三、数据处理
1.数据抽取
因为数据量大,我们先采用Python,pandas进行读取csv文件,并从中抽取100万条行为数据,再进行excel的分析。
import pandas as pd;
#读取csv文件
data=pd.read_csv(r'D:\download\UserBehavior.csv'