We Know What YouWant: An Advertising Strategy Recommender System for Online Advertising

总结

MLP做了一个广告主的采纳率模型(阿里20年才做广告主侧的优化吗。。。)

细节

用context bandit算法,学习advertisers’ preference以及recommendation adoption

ad campaign v = [ v 1 , v 2 , … , v n ] T \bold{v} = [v_1, v_2, \dots, v_n]^T v=[v1,v2,,vn]T,其中n代表KPI的个数。 w ∗ \bold{w}^* w代表广告主的偏好,目标函数:
∏ w ∗ = arg max ⁡ ∏ w ∗ T ⋅ v ∏ \prod_{\bold{w}^*} = \argmax_{\prod}\bold{w}^{*T} \cdot \bold{v}_{\prod} w=argmaxwTv

context bandit建模
status S \mathcal{S} S:campaign相关的特征
action A \mathcal{A} A:预测广告主的偏好 w ∗ {\bold{w}^*} w
reward R \mathcal{R} R:采纳为1,其他为0

cb的目标函数
R ( T ) = E [ ∑ t = 1 T r t , w t ∗ ] − E [ ∑ t = 1 T r t , w t ] R(T) = \bold{E}[\sum_{t=1}^T r_{t, \bold{w}_t^*}] - \bold{E}[\sum_{t=1}^T r_{t, \bold{w}_t}] R(T)=E[t=1Trt,wt]E[t=1Trt,wt]
其中 w t ∗ \bold{w}_t^* wt表示最优偏好

本文的action是高维、连续的,用cb无法有效选择action,因此:
w = M L P ( advertiser behaviours, ad profile, scenario, ... ) \bold{w} = MLP(\text{advertiser behaviours, ad profile, scenario, ...}) w=MLP(advertiser behaviours, ad profile, scenario, ...)

loss function:
L = − 1 N ∑ ( x , v , y ) ∈ D ( y × log ⁡ p ( x , v ) + ( 1 − y ) × log ⁡ ( 1 − p ( x , v ) ) L = -\frac{1}{N} \sum_{(x, v, y) \in \mathcal{D}} (y \times \log p(x, v) + (1 - y) \times \log(1 - p(x, v)) L=N1(x,v,y)D(y×logp(x,v)+(1y)×log(1p(x,v))
其中 v v v是ad performance vector, x x x是environment feature, y y y是label(是否采纳)

实验

实验组+对照组客户消费占全量30%,50/50区分的实验对照组

评估指标

在线实验
采纳率:实验组采纳率4.5%,对照组采纳率3.8%
ARPU/average revenue per user:实验组arpu+1.2%
离线实验
accumulated expected regret,也即上面的 R ( T ) R(T) R(T)
accumulated adoption rate, ∑ t = 1 T r t , w t ∗ T \frac{\sum_{t=1}^T r_{t, \bold{w}_t^*}}{T} Tt=1Trt,wt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值