广告推荐算法 Lookalike


精准定向的两种模式

一种是从一个大的池子中挑选出少部分的精准用户;

还有一种是LookAlike,给一个种子人群/用户,根据相似度扩大它的规模。
在这里插入图片描述

什么是Look-aLike

look-alike 并不是某种特定的算法,而是一类建模方法的统称。

Look alike简单说,就是依据访客,尤其以转化客户的典型行为特征,去推及在全网中寻找那些类似行为特征,但并未看过广告,或者从未出过转化的用户进行广告投放。这种方法相对来说计算量较大,且可能因为特征十分微小分散,也可能因采集样本量级不够大或不明干扰因素等,最后得出的特征会较为发散,未必能找出收敛的特征要素。所以很多时候我们也会通过人群标签作为中介来做look alike。

具体做法是看看那些已转化的客户及某类行为的访客身上哪些标签比较集中,然后将那些用户身上所有被打上的标签全部加在一起,计数选出前十或前几个计数较多的标签,最后再用这些标签作为人群定向条件去投放广告。

如果把广告主圈出来的 10w 用户称为种子用户(「seed users」),那么我们可以把需要额外提供的一批相似的用户称之为 「look-alike users」。我们把这种基于种子用户进行相似人群扩展的过程称之为 「look-alike modeling」。

业界方案

业界相关方案主要与程序化广告中人群定向相关,方法基本都是Look-alike人群扩散,具体有以下几种:

1)标签扩散:根据已有目标用户画像,给用户打各种标签,再利用标签找到机会人群。

2)基于标签的协同过滤:在标签扩散的基础上,采用基于用户的协同过滤算法,找到与种子人群相似的机会人群。

3)基于社交关系的扩散:以具有相似社交关系的人也有相似的兴趣爱好/价值观为前提假设,利用社交网络关系进行人群扩散。

4)基于聚类的扩散:根据用户画像或标签,采用层次聚类算法(如BIRCH或CURE算法)对人群进行聚类,再从中找出与种子人群相似的机会人群。

5)目标人群分类方法:以种子人群为正样本,候选对象为负样本,训练分类模型,然后用模型对所有候选对象进行筛选。涉及PU Learning的问题。

模型评估

上图中,紫色框表示品牌目标人群即种子人群,蓝色框表示模型优选出的TopN人群,它与种子人群有小部分交集,交集占蓝色框的比例即为PredictTATopN Precision。

绿色框表示一周内品牌实际新增人群,与蓝色框的交集为预测准确的人群,交集占绿色框的比例即为NewTA topN Recall。

PredictTA TopNPrecision,表示优选的TopN人群中品牌目标人群的占比,该指标越大说明模型预测效果越好。通过对比该指标在不同模型上使用不同topN值的值,可以验证它的一致性;NewTA topN Recall指标,即优选人群在之后一段时间品牌新增目标人群的占比,可以验证了模型的正确性。

Lookalike在淘系用户增长的应用

目标用户挖掘

用户增长平台的目标是希望能构建面向全域运营人员的全维度用户智能洞察分析体系,帮助运营高效触达目标人群。

大厂的现有运营主要基于业务经验,将业务需求转化为一系列标签,根据标签筛选出符合条件的目标人群,该方法涉及到的数据链路较长,无法及时支持业务投放。

一般进行投放时,先通过种子人群找到扩展人群,其后将扩展人群作为运营触达的目标用户,当有多个种子人群时,可以先找到各个种子人群的扩展人群,然后取各个种子人群的扩展人群的交集作为最终投放的目标用户。

在这里插入图片描述

使用的数据包括:

用户基础属性数据,如性别、年龄、学历、职业、地域、能力标签等;
积累用户标签(Audience label);
用户的评论信息等文本内容,进行观点挖掘和倾向性分析;
用户之间的关系,比如亲情号相关,分享、转发关系等
在这里插入图片描述

Lookalike在精准营销中的应用:

利用一方+三方数据建立Lookalike模型
本质上来说,Lookalike更多依赖大数据和机器学习算法来选取目标受众群。在这样的逻辑下,就产生了另一个问题,如何判断Lookalike算法孰优孰劣?或者说怎样的Lookalike算法才能更为精准地找到目标人群呢?

为了有效解决受众用户基数的问题,介绍三种模式,多维度进行扩量,最大程度上挖掘更多潜在用户群体:

①广告主端扩量:在广告主自身具有大数据量级的情况下,通过建模分析找到有价值的种子人群,并在一方数据里进行扩量。

②媒体端扩量:利用媒体端数据能力,把广告主的种子人群推送到媒体方,并通过媒体端的算法进行扩量和投放应用。

③第三方扩量:打通第三方数据服务商,结合一、三方数据,预测转化可能性,对一方数据进行增补和加强,以此扩大目标受众基础。

Look-alike 算法在微信看一看中的应用

业务背景:高时效性要求

Look-alike 在广告领域的应用已经很完善,也有很多方式。可以把 look-alike 相关的研究分成两个方向:

第一种是基于相似度的 look-alike,这种 look-alike 比较简单,大体思路是把所有用户做 user embedding,映射到低维的向量中,对它做基于 k-means 或者局部敏感 hash 做聚类,根据当前用户属于哪个聚类,把这个种子用户的类感兴趣的内容推给目标用户。
这种方法的特点:性能强。因为简单,只需要找簇中心,或者向量相似度的计算,因为简单、性能好,模型准确性低。
第二种是和第一种相反的,基于回归。包括 LR,或者树模型,或者 DNN or deep model 的方法,主要思路是直接建模种子用户的特征。 把种子用户当做模型的正样本, 针对每个 item 训练一个回归模型,做二分类,得出种子用户的特征规律。
这种方法的优点是:准确性高,因为会针对每个 item 建模。 缺点也明显:训练开销大,针对每个 item 都要单独训练一个模型。对于广告来说,可以接受,因为广告的候选集没有那么大,更新频率也没那么高。
正负样本构造
广告主提交一系列客群范围称之为种子客群,它作为机器学习的正样本。负样本会从非种子客群,或者是说平台历史积累的一些人群中进行选取,于是Lookalike问题就转化为一个二分类的模型,正负样本组成学习的样本。训练模型之后,利用模型结构对活跃客群进行打分,最后得到广告主需要的目标人群。

推荐场景中存在的一些问题

内容时效性要求高,如推荐的新闻专题,必须在5分钟或10分钟内要触达用户;
候选集更新频率高,我们每天的候选集上千万,每分钟、每一秒都有新内容,如果新内容无法进入推荐池,会影响推荐效果。
模型设计
如果要对每个候选集建模,采用 regression-base 的方法,如每分钟都要对新加进来的候选集做建模,包括积累种子用户、做负采样、训练,等模型收敛后离线预测 target user 的相似分,这对于线上的时效性是不能接受的。
在这里插入图片描述

① 模型可总结为 user-users 的 model。回想下经典的 CTR 预估模型,是 user2item 的 point-wise 的处理流程建模。User、item、label,我们做的最大的变化,是借鉴了 look-alike 的思想,把 item 替换成种子用户。用种子用户的用户特征,代替 item 的行为特征。所以模型从 user2item 的 model,变成 user2user 的 model。
② 完善的 seeds representation。用种子用户代替 item 行为特征。这样面临的问题是:怎样更好地表达一个人群。这个 seeds representation,是我们研究中的核心步骤 ③ real-time。最终目标是部署在线上,实时预测种子用户群体相似度,需要是能够实现 real-time 的框架。
Lookalike 在爱奇艺广告投放中的应用

基于标签选择的Lookalike算法

通过对用户观影、搜索行为的深度挖掘,爱奇艺构建了丰富的用户画像体系,每个用户都拥有数以万计的标签,包括基础属性、兴趣偏好等。我们可以对种子用户进行画像分析,挑选出种子用户中表现显著的标签进行人群扩展。例如,分析某化妆品牌种子用户,发现性别<女>、年龄<18-25>、爱购物、喜爱观看时尚节目这些标签非常显著,可以从全站用户中寻找更多具备相同标签的用户提供给广告主作为扩展人群。

算法实现上参考了Yahoo的一篇论文[1],文中提出了一种对用户标签打分的方法,从标签覆盖用户和种子用户的相似度、新颖度及标签质量三个维度对所有标签进行打分排序,最后将TOP-N的标签所覆盖的用户作为扩展结果。三个维度具体含义如下:

相似度。衡量标签覆盖用户和种子用户的重合度,重合度越高,相似度得分越高。
新颖度。Lookalike最终目标是寻找新用户,新颖度用来衡量标签覆盖用户中新用户出现的比例,比例越高,新颖度得分越高。
标签质量。可以使用标签覆盖用户历史投放效果(如CTR、CVR、ROI等)作为评价指标。
在这里插入图片描述

基于机器学习的Lookalike算法

有监督的机器学习算法如下:将种子用户作为正样本,目标是预测活跃用户为正例的概率。具体实现包含以下步骤:

1.正负样本划分

进行有监督学习遇到的第一个问题是缺少负样本,种子用户是正样本,其余用户是无标注样本。这和文本分类里的PU-Learning问题类似,我们借鉴了相关思想,结合不同的场景,分别使用两种方法生成负样本:

使用广告主历史投放的负反馈(跳过广告、观看未点击)用户作为负样本。
使用Spy方法自动生成一部分可靠的负样本(RN)。

2. 模型选择

在模型选择上,常用的分类模型都可以用于这一场景,例如LR、GBDT、FM等。具体到广告的业务场景中,由于我们希望模型具备较强的解释性,方便向广告主说明扩展人群特点,所以选择了LR作为线上使用的模型。 另外,由于扩展人群存在用户复现率的问题,相较普通投放缩小了广告触达的用户范围,可能导致订单缺量,为了避免缺量,最终的扩展人群除了考虑模型预测概率和广告订单预订量外,还加入了用户的历史访问频率进行综合排序。

3. 特征工程

在特征工程方面,除了爱奇艺DMP拥有的用户基础人口属性、观影偏好、搜索偏好、商业兴趣等数据外,我们还探索了用户在广告、行业等维度的行为特征(例如,用户对不同行业广告的反馈、广告对用户的新鲜度等),并取得了不错的效果。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值