1 简介
本文使用python对IJCAI-18 阿里妈妈搜索广告转化预测大赛数据进行了探索与分析,以可视化的方式做了一点微小的工作,供大家参考,文中有错误的内容望读者及时指正。
搜索广告的转化率,作为衡量广告转化效果的指标,从广告创意、商品品质、商店质量等多个角度综合刻画用户对广告商品的购买意向,即广告商品被用户点击后产生购买行为的概率。本次比赛依托电商CTR数据为基础,旨在通过广告商品信息、用户信息、上下文信息和店铺信息等4类数据,对转化率进行预估以辅助商家决策。
本次比赛为参赛选手提供了5类数据(基础数据、广告商品信息、用户信息、上下文信息和店铺信息)如下。基础数据表提供了搜索广告最基本的信息,以及“是否交易”的标记。广告商品信息、用户信息、上下文信息和店铺信息等4类数据,提供了对转化率预估可能有帮助的辅助信息。
- 基础数据:各类数据的编号
- 广告商品信息:商品的具体信息
- 用户信息:用户基本个人信息
- 上下文信息:广告展示页面的基本信息
用于初赛的数据包含了若干天的样本。最后一天的数据用于结果评测,对选手不公布;其余日期的数据作为训练数据,提供给参赛选手;。
在上述各张数据表中,绝大部分样本包含了完整的字段数据,也有少部分样本缺乏特定字段的数据。如果一条样本的某个字段为“-1”,表示这个样本的对应字段缺乏数据。
2 数据探索
2.1 基础数据
字段
|
解释
|
instance_id
|
样本编号,Long
|
is_trade
|
是否交易的标记位,Int类型;取值是0或者1,其中1 表示这条样本最终产生交易,0 表示没有交易
|
item_id
|
广告商品编号,Long类型
|
user_id
|
用户的编号,Long类型
|
context_id
|
上下文信息的编号,Long类型
|
shop_id
|
店铺的编号,Long类型
|
- is_trade负正比例不均匀,大约为52
-
-
-
有大量重复item、shop,商品符合电商长尾分布规律
-
一共有3959家店铺,店铺shop_id6597981382309269962出现11278次
一共有10075个商品,商品item_id7571023501622243456出现3001次
-
user、context有少量重复出现数据
2.2 用户信息
字段
|
解释
|
user_id
|
用户的编号,Long类型
|
user_gender_id
|
用户的预测性别编号,Int类型;0表示女性用户,1表示男性用户,2表示家庭用户
|
user_age_level
|
用户的预测年龄等级,Int类型;数值越大表示年龄越大
|
user_occupation_id
|
用户的预测职业编号,Int类型
|
user_star_level
|
用户的星级编号,Int类型;数值越大表示用户的星级越高
|
- 女性用户为主要对象,占到用户比例的75.5%
- 用户年龄主要集中在1002~1005,推测可能为20~50岁区间,其中30岁为主力消费人群
- 职业,主要集中在2005和2000,信息不详
- 3009和3010等级最高人数也最少,其他用户星级之间差异并不大,
2.3 店铺信息
字段
|
解释
|
shop_id
|
店铺的编号,Long类型
|
shop_review_num_level
|
店铺的评价数量等级,Int类型;取值从0开始,数值越大表示评价数量越多
|
shop_review_positive_rate
|
店铺的好评率,Double类型;取值在0到1之间,数值越大表示好评率越高
|
shop_star_level
|
店铺的星级编号,Int类型;取值从0开始,数值越大表示店铺的星级越高
|
shop_score_service
|
店铺的服务态度评分,Double类型;取值在0到1之间,数值越大表示评分越高
|
shop_score_delivery
|
店铺的物流服务评分,Double类型;取值在0到1之间,数值越大表示评分越高
|
shop_score_description
|
店铺的描述相符评分,Double类型;取值在0到1之间,数值越大表示评分越高
|
- 店铺星级和评价数呈正太分布,中间等级的占大部份
shop_review_positive_rate | 0.714 |
---|---|
shop_score_service | 0.787 |
shop_score_delivery | 0.83 |
shop_score_description | 0.787 |
- 店铺好评大部份等于1,0.7~0.9有少量离群点最小值为0.714
- 店铺服务态度评分分布在0.96~0.98,在0.85~0.90之间出现一系列离群点,最小值为0.787
- 店铺物流评分与服务评分分布分布在0.96~0.95,最小值为0.92
- 店铺描述相符评分集中分布在0.98附近,最小值仅有0.787