个性化系统与搜索系统都是互联网时代具有挑战性的大规模计算问题。由于数据规模的要求,他们一般都采用检索(retrieval)加排序(ranking)这样类搜索的系统架构,因而这两种系统有非常多的相似之处。个性化系统与搜索系统的主要区别在于大量的用户特征的使用。由于需要对每一个用户进行刻画,这一过程需要用到大规模的分布式数据处理平台,如Hadoop;另外,由于个性化特征的效果与其生成的实时性关系很大,为了尽可能实时地利用线上数据,我们还会用到流计算平台来加工短时的个性化特征。将离线的分布式计算平台和在线的流计算平台相结合已经成为这样的系统生成个性化特征的常用方案。
个性化系统框架
一般的个性化系统由四个主题部分构成;用于实时响应请求,完成决策的在线投放(online serving)引擎;离线的分布式计算(distributed computing)数据处理平台;用于在线实时反馈的流计算(stream computing)平台;连接和转运以上三个部分数据流的数据高速公路(data highway)。这几部分互相配合;完成个性化系统的数据挖掘和在线决策任务。
这几部分的写作过程是:在线投放系统的日志接入数据高速公路,再由数据高速公路快速转院到离线数据处理平台和在线流计算平台;离线数据·处理平台周期性地以批处理方式加工过去一段时间的数据,得到人群标签和其他模型参数,存放在高速缓存中,供在线投放系统决策时使用;与此相对应,在线流计算平台则负责处理最近一小短时间的数据,得到准实时的用户标签和其他模型参数,也存放在高速缓存中,供在线投放系统决策时使用,这些是对离线处理结果的及时补充和调整。可以看出,整个系统形成了一个闭环的决策流程,而这个闭环在搭建完成后,基本依靠机器的运算来运转,人的作用只是进行策上的调整和控制。实践证明,这样的闭环系统是有效圈梁利用大数据的关键。
——–来源:《计算广告》 作者:刘鹏 王超