近日,KDD Cup 2018 的比赛结果出炉,阿里妈妈算法专家胡可与来自微软、北大的两位队友组成的“getmax”队成为唯一一支获得全场三项大奖的队伍。
作为全球数据挖掘领域最有影响力的赛事,KDD Cup比赛由ACM协会的国际顶级会议SIGKDD举办,自1997年以来每年举办一次。该比赛一直以来都强调在实际场景中的应用性,今年的赛题是主办方提供中国北京和英国伦敦的天气数据,比赛选手需要以此来预测未来48小时内PM2.5\PM10\O3浓度,赛题本身对应对恶劣环境、改善人类生存有着重要意义。
值得一提的是,胡可就职于阿里妈妈搜索直通车算法团队,他主要的工作内容是做广告排序算法,如应用深度学习模型解决业务问题,团队也在应用并优化多种深度学习模型,其日常工作中积累的深度学习经验在比赛中起到了关键作用。
斩获三项大奖的秘密:空气预报特征+深度学习模型解决空气预测难题
与往年只有最终成绩奖项不同,KDD Cup 2018计入了比赛过程中的成绩并设立了三项大奖——“The General Track”、“最后10天专项奖”、“最佳长期预测奖”,从三个维度来奖励比赛中表现突出的队伍。而“getmax”也因全面而突出的表现,从4000多个参赛队伍中脱颖而出,成为唯一一个斩获三项大奖的队伍,分别取得一项亚军、两项冠军的成绩。
本届赛题十分独特,空气质量预测不仅具有规律性弱、不稳定、易突变的特点,并且因为要预测未来48小时中的每个小时,以及北京/伦敦城市内几十个预测地点,建模时间序列以及地点拓扑关系给机器学习模型带来挑战。
在胡可看来,最终的成绩主要来自于特征与模型两方面的优化。
特征方面:
发现风速和风向是长期预测与突变预测的关键,所以在比赛中在时间与空间维度细化了天气预报的特征,并且运用噪音处理与分箱平滑、以及神经网络结构调整解决天气预报训练数据缺失引起的不一致问题。
模型方面:
除运用细粒度特征工程的树模型外,也运用深度学习模型进行相对自动的特征间以及序列间关系挖掘。并且针对长时间序列问题的特点,对DNN网络与RNN网络分别进行了优化调整,解决了序列间预测值接近、长序列预测值不稳定等问题。
之所以会用以上的思路解决问题,胡可说,工作场景起到了在实际问题中积累思路与技术的作用,“对深度学习模型的应用是前面队伍排名区分的关键,在比赛中应用的DNN/RNN模型在自己工作中的广告领域有很多探索。”
阿里妈妈打造Ad Tech:用技术进步驱动营销
“比赛中的有些开源解决方案,具有与实际工业界互相促进的作用。”胡可对算法比赛很感兴趣,他也是去年KDD Cup 的冠军获得者。
之所以活跃于全球顶级的算法大赛中,胡可表示,KDD Cup是工业界和学术界都非常关注的一个比赛,也产出过很多对业界有影响的技术,比如KDD Cup 2012 产出的XGBOOST和FFM模型对工业界产生了很大的推进作用,而在工业界有了一定应用沉淀后,又不断地对这两种模型进行优化。
他也希望能够向这个方向努力,预测环境问题与广告问题看似场景不同,但技术本身是相通的,工作和比赛都是在针对具体问题运用机器学习相关算法进行建模与优化。在算法比赛中一方面将工作中熟悉的技术应用于各种实际问题,另一方面则加深对技术的理解并且将新的理解应用到未来工作中。
这也正是阿里妈妈技术团队所倡导的,作为阿里巴巴旗下的大数据营销平台,阿里妈妈在今年提出了打造营销科技Ad Tech的品牌战略,在其原有业务的探索基础上,加深与学术界的交流,阿里妈妈每年都有一些新论文入选到IJCAI、WWW、AAAI等技术领域的国际顶级会议上,今年也有论文入选了此次SIGKDD会议,阿里集团共有14篇文章被收录;同时,它也通过主办算法大赛来增进算法交流,例如携手国际人工智能的顶级盛会IJCAI以及阿里云天池平台,共同举办的IJCAI 2018阿里妈妈国际广告算法大赛。
在阿里妈妈Ad Tech的理念之下,通过技术的不断进步,来驱动广告场景的持续优化,理想正在逐步照进现实。