如果科技让出行更美好,可以推动出行的进化,那么 AI 算法模型的应用,就是其中一个最大的推动力。本次分享的主题为算法在哈啰顺风车中的实践应用,将首先介绍算法同学依托于什么样的算法平台来解决哪些具体的业务场景;其次,介绍匹配推荐引擎,包括引擎的架构,召回和精排模块的演进;再次,介绍交易生态治理算法,包括治理算法的架构和模型的演进;最后,介绍智能营销算法的架构和模型的演进。
业务介绍
首先介绍下哈啰的算法平台基础建设,给算法同学在业务中落地算法提供了有力的保障。
1. 平台基建
公司的机器学习平台是基于机器学习和深度学习计算框架进行二次开发,提供一站式的服务,为算法同学提供从数据预处理、模型训练、模型评估、模型在线预测的全流程开发和部署支持。为算法同学提供端到端的一站式服务,帮助我们脱离繁琐的工程化开发,把有限的精力聚焦于算法策略的迭代上面。
-
该平台底层依托于 Hadoop/Yarn 进行资源调度管理,集成了 Spark ML、XGBoost、TensorFlow 三种机器学习框架,同时支持 CPU,GPU 异构资源的使用
-
我们的特征服务平台:提供了离线特征能力和实时特征能力,将线下的特征应用到线上,也可以将实时计算的特征推送到线上
-
我们的模型服务平台:管理算法的版本以及算法版本所用的模型、特征和参数,并为机器学习和深度学习模型实时计算提供高可用在线预测服务
-
我们的 AB 实验平台:通过科学的分流和评估方法,能更快更好地验证算法的效果
其实最开始的时候,我们的特征和模型是跟业务强耦合的,导致每次模型迭代,服务端都要搞发布,迭代效率很低。所以后面我们就把特征和模型全部剥离出来,放到机器学习平台去。
有了机器学习平台的一站式解决方案,算法同学可以方便快速的进行顺风车业务算法的落地。下面介绍一下,顺风车业务算法的构成。
2. 顺风车业务
从我们平台的二轮用户转化或者广告外投的渠道通过智能营销算法拉新过来的车主在平台发布订单后,通过我们的匹配推荐系统进行乘客订单的推荐,然后车主接单后进入行程中,我们会有交易生态治理算法来为司乘的体验与安全保驾护航。
所以整个交易链路,涉及 3 块算法,第一块是匹配推荐引擎,第二块是交易生态治理算法,第三块是智能营销算法。
首先介绍一下我们的匹配推荐引擎。
匹配推荐引擎
此模块主要分 3 个部分来讲,从架构到召回模块演进到精排模块演进。
1. 架构
匹配推荐引擎的目标是最大化交易效率的同时能够兼顾长期留存。
我们首先介绍一下推荐引擎的架构。从数据层来讲,数据来自于 3 个方面,一个是客户端传下来的实时上下文数据,比如乘客订单的价格、起点距离等上下文特征。一个是 flink 任务计算的准实时数据,比如同一笔乘客订单被多少司机看到,所有这些看到的司机中跟这个乘客订单的平均顺路度,起点距离等。一个是离线计算的宽表特征,比如对于车主接单行为的画像特征。
从数据层到模型匹配层,模型层主要分为召回层、粗排、精排、重排 4 个阶段。
从模型层到业务层,针对每个子场景都定制一套自己的模型,我们的顺风车从 2 个大场景来说,分为车主侧和乘客侧;而车主侧又分为临时行程、常用路线、附近找单、跨城找单等接单渠道。
接下来主要讲一下召回模块和精排模块的演进。
2. 召回模块
召回模块面临 4 个挑战:
第