4月份项目实战的总结,前后进行了约20多天。
花了大量时间在清洗数据,虽然耗时但是觉得过程中很享受,喜欢“静静地泡在里面”的感觉。
另外,了解了涉及到的广告投放、业务指标体系、手机设备版本及API等相关知识,有趣!
感受:分析问题的思路 比 代码的实现更为重要
项目背景:2018科大讯飞AI营销算法大赛,点击去官网
数据集:选用训练集数据round1_iflyad_train.txt ,每一行数据为一个样本,分为5类数据,包含基础广告投放数据、广告素材信息、媒体信息、用户信息和上下文信息,共1001650条数据。数据经过脱敏处理。
语言:Python+panda、numpy、re、seaborn、matplotlib等第三方类库
完成:
- 无效数据的删选和过滤,比如NaN,unkown等缺失值
- 缺失值的填补:比如设备品牌make大量缺失值,可以用型号model中含有的品牌信息进行补充,效果非常明显