关闭

专访滴滴算法大赛冠军团队:回归树模型取胜

标签: 机器学习数据数据分析
3570人阅读 评论(0) 收藏 举报
分类:

7月20日,滴滴出行首届全球Di-Tech算法大赛正式落幕,由三名成员组成的中国团队“inferrrr”夺得冠军并收获10万美元奖金,该团队近日接受了CSDN记者的采访,介绍其大赛中使用的方法和比赛心得。

背景

本次大赛赛题为“解决出行行业供需预测问题”:即对于特定城市的特定区域给定前三十分钟订单相关数据(包括数月的实时订单,区域POI, 交通信息,天气数据等),参赛团队通过算法来预测该地区未来十分钟的供需差值。所有参赛选手基于滴滴出行开放的真实出行数据进行算法PK,最终所预测结果与真实情况差距最小者获得本次大赛冠军。

截至目前,滴滴出行平台日均需处理1400万订单,需要分析的数据量达到70TB,路径规划超过90亿次。面对如此庞杂的数据,保证数据分析及相关应用的稳定,实现高频出行下的运力均衡,供需预测是其中的一个关键而复杂的问题。

inferrrr团队由南京理工大学李翔、叶启威、柯国霖三人组成,该团队在特征工程方面具有鲜明创新性,高阶特征较精细,他们对传统的GBDT算法做出改进,并结合业务和产品特性,通过与司机交流等多种方式完善方案。滴滴研究院副院长叶杰平认为,该团队对XGBOOST模型进行了一定的创新改造,在速度和MEMORY上体现出良好效果。

采访实录

CSDN:在参加这次挑战之前你们都有什么专业背景?

答: 我们都是计算机专业,并从事机器学习/深度学习相关研究的学生。

CSDN:有没有什么领域知识助你们成功?

答: 主要是计算机、机器学习和统计学的知识帮助我们。

CSDN:是什么因素使得你们决定参加这次比赛?

答:一是奖金很吸引人,二是我们对模型有着新的理解,想尝试一下实际应用的效果。

CSDN:能否概括你们采用的方法,你们取胜的那个模型?

答: 我们尝试过传统的逻辑回归模型,最新的深度学习模型,以及最后使用的回归树模型。

“回归/决策树”模型是一个十分易于理解的模型,该模型根据不同的特征对数据进行分类(回归)。在训练过程中,尝试的找到每一次能够对数据进行分类(回归)的最好的特征。并在此基础上,反复迭代,构建多棵树用于最终结果的预测。

我们针对于这次的任务和数据,对于现有的方式有一些改进,使得能够得到更准确的结果。

CSDN:深度学习模型的实际效果如何?

答: 由于数据量还不是非常足够,同时深度学习对特征的对齐处理要求很高,所以在我们的实验中还未能超越决策/回归树模型。

CSDN:在数据方面你们遇到过哪些主要困难?

答: 部分维度的数据因为统计缺陷,使用起来效果不佳。另外数据量还可以进一步加大。

CSDN:在观察数据时你们最重要的发现是什么?

答: 绝大多数乘客的出行,都有固定的模式(时间、地点),同时工作日和周末的模式也有很明显的不同。

CSDN:有没有某一发现让你们感到很惊讶?

答: 比如说在数据分析的过程中有一些让我们感到很难理解的结果,

例如我们发现每天下午三点(不是早晚高峰)存在一个较大的供需差值。通过和司机的讨论,该差值来源于:

  1. 司机在这个点的疲惫;
  2. 司机收到的激励不足等。

CSDN:你们对数据做了什么样的预处理?使用了什么工具?

答: 做了一些哈希的预处理从而提升后续特征的提取速度以及降低内存使用。我们全程使用我们团队为本次比赛开发的工具。

CSDN:进入数据科学领域,你们有什么心得?

答: 一切从数据本身,从业务逻辑出发去分析问题,寻找关联。模型、算法和经验都是工具。

1
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

滴滴算法大赛算法解决过程 - 拟合算法

滴滴算法大赛算法解决过程 - 拟合算法 拟合 概论 Gap的预测,是建立在一个拟合函数上的。也有一些机器学习的味道。 总的Gap函数 = 函数(时间,地区) TimeID : 时间片编号DistricID:地区编号Traffic:交通流量Weather:...
  • javastart
  • javastart
  • 2017-03-06 20:29
  • 881

滴滴算法工程师实习生一面面经

滴滴今年校招的笔试题灰常的简单,选择是往年的原题,智力题什么的也都可做,两道编程题分别是翻转字符串中单词的字母顺序,和俄罗斯套娃dp问题,于是就接到了找实习以来的第二场现场面试通知。 流程基本就是到达滴滴的写字楼然后签到,有一个微信助手排队,有人叫号,面试是一对一的,等了两个小时终于轮到了。。。...
  • a527012312
  • a527012312
  • 2017-05-04 16:07
  • 2301

20170826滴滴算法工程师笔试

今天有点坑的就是,本以为题目还是一如既往的套路,编程会卡在那里走不下去,结果是选择题好多知识点都忘了,一心想着快点做完好去做编程题,换来的结果就是选择题一顿瞎写,编程题不到十分钟AC了,只能说有点另类,主要也是由于今天的题目搭配颠覆了之前的套路,好了 ,就当做是一个教训吧,下面简单写一下编程部分: ...
  • Together_CZ
  • Together_CZ
  • 2017-08-26 16:15
  • 424

滴滴出行实时计算系统架构及实践

  • 2016-08-15 21:43
  • 8.31MB
  • 下载

滴滴算法大赛算法解决过程 - 拟合算法

滴滴算法大赛算法解决过程 - 拟合算法 拟合 概论 Gap的预测,是建立在一个拟合函数上的。也有一些机器学习的味道。 总的Gap函数 = 函数(时间,地区) TimeID : 时间片编号DistricID:地区编号Traffic:交通流量Weather:...
  • javastart
  • javastart
  • 2017-03-06 20:29
  • 881

滴滴全球Di-Tech算法大赛落幕 中国选手夺得10万美元大奖

7月20日消息,滴滴出行首届全球Di-Tech算法大赛今日正式落幕,经过数轮激烈角逐后,由三名成员组成的中国团队”inferrrr”以绝对优势夺得冠军并收获10万美元奖金,“一剑风吼”和“blitz”两团队则分获二、三名。 滴滴出行CEO程维在算法大赛颁奖现场发表演讲,他表示:“互联网的下半场...
  • chivalrousli
  • chivalrousli
  • 2016-08-15 16:36
  • 897

滴滴出行2017秋招笔试真题-编程题汇总 - 题解

  • 2017-10-31 12:03
  • 1.40MB
  • 下载

20170826滴滴算法工程师笔试

今天有点坑的就是,本以为题目还是一如既往的套路,编程会卡在那里走不下去,结果是选择题好多知识点都忘了,一心想着快点做完好去做编程题,换来的结果就是选择题一顿瞎写,编程题不到十分钟AC了,只能说有点另类,主要也是由于今天的题目搭配颠覆了之前的套路,好了 ,就当做是一个教训吧,下面简单写一下编程部分: ...
  • Together_CZ
  • Together_CZ
  • 2017-08-26 16:15
  • 424

97年世界编程大赛一等奖作品代码--太牛了,偶像!

97年世界编程大赛一等奖作品代码--太牛了,偶像! 转载▼ 这个程序(omni.com)是97年的Mekka ’97 4K Intro比赛的一等奖作品, 整个程序全长4095字节,其中包含133字节的自解压程序(类RAR压缩),未解压的程序长4782字节。三维场景包含1...
  • yippeelyl
  • yippeelyl
  • 2015-05-08 07:29
  • 2982

喜迎2015年新年:坦克大战(Robocode)游戏编程比赛图文总结

2015春节前,葡萄城的软件工程师以特有的方式来迎接新年——2015新年编程邀请赛。  邀请赛的初衷,是和大家一起,寻找编程最初的单纯的快乐。       在代码的世界里,添加动力,继续远航。   &#...
  • powertoolsteam
  • powertoolsteam
  • 2015-03-03 11:51
  • 1606
    个人资料
    • 访问:63808次
    • 积分:921
    • 等级:
    • 排名:千里之外
    • 原创:28篇
    • 转载:27篇
    • 译文:0篇
    • 评论:3条
    最新评论