数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=50893
由于隐私问题,数据脱敏。
三个数据集:
- effect_tb.csv: 广告点击情况数据集
- emb_tb_2.csv: 用户特征数据集
- seed_cand_tb.csv: 用户类型数据集
使用字段:
- dmp_id:营销策略编号(设置1为对照组,2为营销策略一,3为营销策略二)
- user_id:支付宝用户ID
- label:用户当天是否点击活动广告(0:未点击,1:点击)
一、数据预处理
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from IPython.core.interactiveshell import InteractiveShell #多行输出
InteractiveShell.ast_node_interactivity = "all"
(一)查看缺失值、重复值
data=pd.read_csv("C:/Users/ZJDCUser/Desktop/比赛实战/支付宝营销策略分析/effect_tb.csv",header=None)
data.columns=['dt','user_id','label','dmp_id'] #文件中没有字段名
#日志天数属性用不上,删除该列
data=data.drop(columns='dt')
data
data.info() #三列均不存在缺失值
user_id label dmp_id 0 1 0 1 1 1000004 0 1 2 1000004 0 2 3 1000006 0 1 4 1000006 0 3 ... ... ... ... 2645953 999966 0 1 2645954 999971 0 1 2645955 99999 0 2 2645956 999990 0 1 2645957 999992 1 1 2645958 rows × 3 columns
<class 'pandas.core.frame.DataFrame'> RangeIndex: 2645958 entries, 0 to 2645957 Data colu