关于2018科大讯飞 广告AI大赛个人见解

 

2.1 数据预处理

    本节阐述数据的预处理方法,整个预处理方法分为若干子步骤,分别是数据清洗、

异常用户检测以及后续处理。

 

图2-1数据类型表

 

missingno绘制缺失数据图

 

图2-2缺失值显示表

图2-3缺失值统计表

 

图2-4缺失值可视化表

小结:f_channel缺失值较多在后续数据处理中考虑是否删除,将user_tags缺失值定义为新类型,通过model和make是osv是对应关系,三者可以一同处理,app_id和app_cate_id是两个id维度下的全局范围的数量统计(比如同个app_id下有多少种广告位id)具有相互关系。

2.1.1 app_id,app_cate_id和f_channel处理

 

图2-5分类id和媒体id关系图

 

图2-6 app_id显示图

 

图2-7分类频道独立显示图

小结:f_channel与'carrier'运行商, 'devtype'设备类型, 'app_cate_id'app分类, 'app_id'媒体id,'creative_is_jump','creative_is_download', 'creative_has_deeplink'唯一对应, make品牌全是0,即有一级频道的记录没有品牌数据由于f_channel下一个频道对应一个app_id,由于缺失值过多,考虑将f_channel去除,只使用app_id

2.1.2:make,model,os

 

图2-8显示model和make不同的类型

 

图2-9操作系统和点击关系图

小结:model很多的点击率是100%,明显是由于基数过大与过少,这样的数据不具有泛化能力。

make手机品牌太多,粒度太细容易过拟合,考虑后续合并手机类型。

2.1.3 user_tags处理

 

图2-10 user_tags和点击率关系

小结:用户缺失不影响点击与否,用户标签信息理解为用户的属性和动作,考虑后续用词向量的方式提取相关信息,未出现信息暂时用0替代。

2.2 数据处理总结

经过异常用户检测及清除步骤后,广告数据集剩余约70万条记录,有35个标志字段。口志数据中存在字段不完整、缺少字段值以及字段值异常的情况,例如正常情况下每条记录包含35个字段,但是有些记录少于35个字段;有些重要字段例如adid存在缺失值;还有些记录存在字段值异常的情况,例如os字段表示是否点击,这个字段理

论上是anroid或者ios等,但是有些记录值为其他值;字段值异常还体现在有些值内部可能出现重复的情况,针对这种情况,需要进行去重处理。综上所述,广告点击数据集还需要进行后续处理步骤,对这样的异常情况进行处理,并且选择合适的字段进行保留,将冗余的字段进行剔除,具体措施如下:计算每一条记录的字段数目,对字段数目有差错的记录进行删除;定义重要字段集合和有用字段集合,原则上,重要字段集合是有用字段集合的子集。针对重要字段集合内的字段,如果记录中出现空值/缺失值或者异常值,则直接删除该记录;针对有用字段集合内的字段,如果出现空值/缺失值,则对于离散取值的字段,将该值统一用一个该字段下未出现的新值替代,对于数值形式的字段,用该字段下的均值替代。

靠人不如靠自己,最后还是得自己做一个实验,做一个报告,好像划水呜呜呜,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值