dsp平台怎么分发成百上千亿的流量?

公司的组织架构可能会是这样

先来看看“技术中心”怎么处理这么大的dsp流量?

一、初级技术方案

首先会有运营团队根据规则对这些流量进行分发,以分发到外部,也就是合作的广告主(腾讯、网易等)为例。广告主对这些流量进行选择是否竞价以及竞价多少,然后回传给我们素材,我们再对同一个流量的多个竞价公司进行对比(同一个流量可能同时分发给多个广告主),然后选择其中之一返回给“媒体方”(媒体方那边也不止一个dsp第三方广告平台,会有多个平台来共同参与)去参与竞价,最后是否再进行展示(可能还会有自有广告流量,那就是自有广告+第三方广告的联合竞价) 

二、改造技术方案

第三方广告的qps一般都很大,以100万举例,实在过于巨大,而且我们要控制整个算法链路在100ms~200ms之间,再去掉我们和广告主之间的链路耗时,留给我们自己的就更少了(假设70~140ms)。对这些流量全部采用搜广推算法链路的召回、粗排、精排、重排4个步骤基本不可能,所以需要先过滤再用模型来做
1、先对这100万流量进行下过滤,一些质量很不好的流量需要过滤掉,可能剩下80万,dsp平台一般会同时把流量分发给内部下游继续做处理,或者直接分发给广告主,以7成分发给外部为例,也就是56万
2、根据流量特点和广告主的匹配程度,也就是用规则+模型把这56万流量分到不同的广告主上去,这时候分到每个广告主的流量就比较类似了,都是比较匹配的,要相对这些流量进行优质分发,就需要用到“精排”这个阶段
3、以腾讯举例,比如从56万里筛选了12万合适的流量,我们对这12万流量进行打分
上面从100万->12万就相当于“召回”的过程,接下来是粗排,需要从12万里面再筛选比较精细的一些流量,具体到多少数字,需要根据历史腾讯的合作经验,以及和他们那边的沟通工作,假设是1000条,这个阶段(12万->0.1万)需要训练“粗排”模型来做,而且粗排模型的设计不宜过复杂,经典的双塔粗排就可以了
3.1 特征
3.1.1 广告主侧特征:
单值特征:公司id、公司一级分类(多值特征)、公司二级分类(多值特征)、规模等级、偏好的媒体类型以及相应的分数、历史回传正向响应比例(在dsp平台投放的广告,拿到多少转化,或是收益)
序列特征:历史投放媒体序列(公司id序列、公司类目序列)、历史正向投放媒体序列(投放广告且拿到收益)。这些序列可以设计mean-pooling、multi-head-target-attention
广告创意特征:本次进行投放的多模态相关描述(比如图片、文本、视频)
3.1.2 流量侧特征:
媒体相关的描述

3.2 样本

样本需要用精排阶段收集到的样本,也就是曝光+点击样本。在后面迭代的时候,还可以把返回给媒体方平台当时却没有进行曝光的样本加进来训练,这样是为了扩宽样本域,因为粗排不像精排,他的目标还是要基于全体样本才是

4、精排模型
4.1 特征
4.1.1 交叉型特征(相对于粗排模型要增加的特征):
(1)人工设计交叉

当前媒体类型是否是广告主需要的类型、匹配的程度是多少
当前广告主在当前媒体上的投放表现

(2)dcn特征自动交叉

4.2 样本

就直接用线上投放拿到的曝光点击样本即可

4.3 模型

模型的话,就可以比较复杂了,毕竟排序的量不是很大。首先特征层面,就是上面的特征+dcn特征交叉,在结构上一般是多目标结果,ctr、cvr这是最基础的,可能还要根据业务特点,多增加几类。还可能有一些偏置的网络结构,就是不直接加在主网络上,比如ppnet这种思想

5、重排
重排阶段重点是“预估偏差”调节,这不像是一个自己app的业务,预估偏差可以训练的很好,在做dsp的时候,这里是很大的一个问题,可以用到“保序回归”等调节办法

同一个位置,给自有流量和dsp流量,后验统计ctr/cvr差异是很大的

再来看看“公司业务组”怎么处理这么大的dsp流量?

一、业务

一般dsp能处理的流量,会是各大“媒体方”的长尾流量,这个量级也很大,从里面筛选一些流量,来进行自己业务的投放,这个量级可能是亿级别

业务组一般是按照行业来进行扩展自己的业务,比如先做“电商行业”,做成熟了,再做“游戏行业”等,服务的广告主不会很多,但是预算消耗却是特别多,可能两三个广告主就占了总流量的50%

以优化“电商行业”为例,业务组一般要做的有两件事情,一件是“人群”扩散,首先dsp平台自己会有一个“用户底池”,**广告主在与公司合作的时候,也会提供一个“目标人群包”,这两个人群之间会有“交集”,所以两个人群一般会以“手机mac地址这种作为userid”

1、怎么扩散(规则、模型)

 

2、“电商行业”模型效果怎么优化

要优化的模型效果就是ctr cvr这种指标,和传统广告行业的优化目标基本一致,但是和“to c”的业务模块又有些差别,作为媒体方(比如抖音、快手)会自己手机到很多、很完整的行为、特征,训练模型比较容易达到好的精度;但是对于dsp平台,需要的是“积攒行业的数据,包含用户行为数据、投放广告的曝光、下载、转换等数据”,等积攒到一定量级,模型也能达到收敛的程度,如果有其他“电商行业”的广告主过来,也比较容易的接下这个客户 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值