写在前言
数据说明:
用户在商品全集上的移动端行为数据(D),表名为tianchi_fresh_comp_train_user_2w,包含如下字段:
字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品标识 字段脱敏
behavior_type 用户对商品的行为类型 包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。
user_geohash 用户位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category 商品分类标识 字段脱敏
time 行为时间 精确到小时级别
了解数据
加载必要库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
读取数据
# 读取数据
data = pd.read_csv('./tianchi_fresh_comp_train_user.csv')
快速查看数据类型和结构
统计缺失值
删除user_geohash 列,这里不做地理分析