术语
RTB:实时竞价real time biding
用户访问网站-网站根据cookie之类的追踪出这个用户是谁-把这个用户的标识发给ADX(广告交易平台)-ADX向多个DSP(需求方平台)询问这个向这个用户展示广告的价格-价格最高的胜出,对应的广告被展示在这个用户的界面上
广告主的网站和DSP也有cookie映射以知道这是哪个用户。
UV:独立访客Unique Visitor
PV:页面浏览量pageview
GMV:成交额=访客数×全店成交转化率×客单价
SPU就是俗称的“款”
SKU就是商品的“件”
CTR(Click-Through-Rate)点击通过率=点击/展示
业务逻辑
流程
以ad-server(广告投放机)为中心,其他模块都与ad-server交流。
流量经过gateway解析用户信息成ad-server需要的格式后进入ad-server。
ad-server将用户信息发给user-server查找用户的历史行为(搜索、浏览、购物记录)。
ad-server根据用户历史行为到sku-server中查找对应历史行为的商品信息(商品名称、品牌、spu、三级目录等)。
ad-server将上述信息输入到re-server(recommend-server)和ad-retrieval(广告检索),得到结果后返回给gateway用于前端显示。
re-server返回根据推荐逻辑产生的sku列表(列表如何排序就要靠排序模型了:先feature-server抽取特征,然后用predictor预测哪些被买的可能性大)
ad-retrieval功能:在线时根据用户标签与页面标签从广告索引中查找复合条件的广告候选。
重点关注模块
gateway
前端的流量全部打到gateway。
负责:
前到后:
分流(abtest、分流一些到小流量实验平台)
关键字穿透(前端->gateway->后端,用来追踪用户行为,计费等)
后到前:把广告序列化为媒体需要的格式
mixer
做的是推荐广告(展示广告)
Predictor
预测在线广告实时的指标(不是预测客户喜欢的东西是什么)
CTR:Click Through Rate点击率
pCTR:predict CTR
eCPM:千次展示期望(expected)收入
基础服务
Hadoop
由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统,其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。
flume
高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
KAFKA
高吞吐量的分布式发布订阅消息系统,将消息持久化到磁盘。
可用于批量消费以及实时应用程序
STORM
分布式、高容错的实时计算系统。弥补Hadoop不擅长实时计算的缺点
mooseFS(MFS)
轻量级分布式文件系统
redis
mysql
开发模式
主干开发+分支上线
模块含义
re-retrieval全站
ad-retrieval根据关键词搜索广告
anti-server反作弊反劫持
个性化系统框架
《计算广告》第二版刘鹏P138
计算广告系统架构
《计算广告》第二版刘鹏P140