广告投放算法:受众行为分析与人群定向

引言

“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了‘聚类’和‘人群’之间的内在联系。 例如在现代数字广告投放系统中,最为关键的‘人群定向’功能正是通过‘聚类’算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。

广告传递信息的受众是每个在浏览器前的自然人,然而互联网上的分析手段无法触达自然人,只能以他们上网的痕迹和记录作为在数字世界中的代表,这就是Cookie. 于是,以物拟人,以物窥人,才是比任何大数据都要更大的前提。明白了这一点,也就触摸到了人群定向的天花板——不可能百分之百精准。

如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。它以cookie为单元,根据cookie的海量历史行为,推断其行为特征,兴趣爱好,并以此为依据,将最合适的、最有可能产生转化的广告展示给用户。受众行为分析一方面能够提高用户对于广告的反馈程度,增加转化率;另一方面能够降低广告主进行广告投放的成本,以更低廉的价格产生最佳的投放效果。

下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。

一、 关键词标签

关键词标签从何而来? 从网页中来。一个Cookie会被贴上什么样的标签,是由这个Cookie浏览过的网页等历史行为所决定的。这个预处理过程,大致可分为以下三步:

(1) 记录受众的历史行为,包括产生浏览、点击、搜索、注册、购买等行为的网页地址(URL),积累原始数据;

(2) 以商品内容和新闻内容为导向,建立关键词标签库,作为受众行为分析的基础元数据;

(3) 针对所有受众相关的URL,通过网络爬虫程序和语义分析(分类和关键词提取),生成每个cookie的初始标签集合。

定义1:关键词标签模型

[关键词标签模型] 定义为一个由多元组 ,其中:

  • tagid 标签标识,每一个关键词都有唯一的一个id与之对应
  • 使得用户产生浏览(view)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生点击(click)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生搜索(search)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生注册(register)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生购买(purchase)操作的网页中含有标识为tagid的关键词数量

如图1所示,在每个关键词标签模型中,考察多种典型用户行为,如:浏览,点击,搜索,注册和购买等其它行为。在图中,每个标签就像是一根竹签,上面串着五粒或更多的糖葫芦。举例来说,关键词标签 Valentino (id为1) 的模型 表示在用户浏览的网页中共含有关键词Valentino 100个,在他/她点击过的页面中含有关键词Valentino 5个,而在他/她进行购买下单的页面中含有1个关键词Valentino。这个标签表征该用户对奢侈品品牌Valentino有相当的兴趣和关注度。

大数据图1 关键词标签及受众对象

从上述关键词标签模型可以看出,通过提取用户感兴趣的特征标签集合,并以此为依据进行广告精准投放,主要的优点在于:

能够细颗粒度地刻画出受众对某件事务或者领域的兴趣程度,从而使得投放更加精准。

可以实现“协同过滤”的功能,即利用受众类别之间相似性,预判出受众潜在的购买意向。

二、 受众对象模型

关键词标签模型记录了最原始关键词信息,将爬虫所得的非结构化文本抽象成为结构化的标签信息。接下来对标签的五个行为计数器进行加权归一化处理,遍历受众的全部关键词标签,量化每个关键词标签对于受众的重要程度,就形成了受众对象模型。

定义2:受众对象模型

[受众对象模型] 定义为一组以tagid递增排序的关键词标签模型以及权重的集合,

其中:

  • pointid 受众对象标识,与cookieid一一对应
  • 受众标识为pointid的第i个关键词标签模型
  • 关键词权重映射函数,刻画关键词对于受众的重要程度
  • 即关键词权重系数属于范围之内

如图1所示,受众对象模型刻画的是受众Cookie的历史行为特征,而其维度就是不同的关键词标签,通常可达几十个乃至上千个维度。这就好比一杆草桩上密密麻麻地插满了不同口味的糖葫芦。映射函数使得标签的行为被加权归一化,可以根据不用的业务需求进行设计。一般而言,购买行为是最强的信号,权重最高;点击则属于次强级别,表明用户的主观兴趣,有明确的目的去了解相关信息;而浏览在很多情况下是被动行为,故权重值最低。

在第一节的例子中, 假设白领女性Amanda的cookie ID为1, 拥有关键词标签Valentino: , 被加权归一化后系数;同时, Amanda还拥有另一关键词标签宝马微型车品牌Mini Cooper: , 则被加权归一化后可能有(点击行为的权重比浏览高);此外受众A还拥有其它一些标签,但权重系数比较低。那么该受众Amanda的模型就可表示为。至此,自然人的兴趣属性和特征,通过其浏览器Cookie为代表,经过上述建模手段被抽象和重构出来了。

受众对象模型是受众聚类的原子单元,可以形象地理解为多维聚类空间中的一个“点”。通过受众聚类算法,将含有相似关键词标签集合的用户聚合在一起,就组成了受众聚类模型。

本文介绍的整个受众行为分析的模型流程图如图2所示:

大数据

图2 受众行为分析模型流程框图

三、 聚类模型和算法

累积受众对象模型后,我们已经坐拥成亿量级的受众‘矿山’,其中每块矿石具有几十乃至上千的标签维度。 如何才能有效地开采矿山,提炼金子呢?这得有请在计算机届鼎鼎有名的数据挖掘工:聚类(Clustering)。聚类是一个将数据集划分为若干类的过程。聚类的宗旨和评判标准是使得同类对象相似度尽可能大,而各个类之间的相似度尽可能小。相似或不相似的描述是基于数据描述属性的取值来确定的,通常是用各对象在多维空间中的距离来表示。

定义3:受众聚类模型

[受众聚类模型] 定义由3个部分组成

其中:

  • clusterid 受众聚类标识,每一个受众聚类都有唯一的一个id与之对应
  • mean 聚类中心,,刻画受众聚类共有属性特征
  • 人群集合,所有属于标识为clusterid的受众对象集合

常用的聚类分析算法大致包括划分方法,分层方法,基于密度的方法和基于网格的方法等几类。易传媒的投放系统所搭建的受众行为分析模型借鉴了CURE (Clustering Using REpresentatives) 层次聚类算法,并在其基础上参考了其他聚类算法(例如:BIRCH等),融合改进,试图使整个聚类算法更加符合实际的广告业务需求。CURE算法将分层方法与划分方法结合到了一起。它克服了偏向发现相似大小和圆形形状聚类的问题;同时在处理高维数据和异常数据时也表现得更加高效稳定。相比其他算法,CURE算法主要有以下几个优点:

  • 通过使用“代表点”表示一个聚类,从而使得聚类算法能够适应各种不规则形状的类,而不仅仅是球形的。
  • 通过因子将代表点向聚类中心进行收缩,从而使聚类算法抵抗离群点的能力更强。
  • 通过随机抽样和划分技术,使得CURE算法能够处理超大规模的数据,以加快聚类算法的执行效率。

为了验证该模型的可靠性,易传媒技术团队根据统计学中一些经典的方法设计了验证系统,结果证明误差被控制在一个比较理想的范围内。

定义4:聚类效果指标

设受众模型总数为n,聚类将所有受众分成k类, 。

令W为所有受众距离聚类中心的总离差平方和。

为类中受众距离各自中心的离差平方和。

则有统计指标 =。

该指标的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以大为减小作为代价。测试结果的值在0.80左右,这表明易传媒这套算法的聚类效果比较好。

继续前面的例子,已有受众A ,若还有受众B ,受众C 等等。他们有极其相似的标签属性,并且规模足够大,那么运行聚类算法后,很可能会产生一个独立的受众聚类。这个受众聚类包括了相当数量的类似受众,其聚类属性就是标签集合”Valentino&Mini Cooper”。这个人群就是经过多道工序处理之后,数据挖掘工最终给我们淘出的亮灿灿的金子。

四、 人群定向投放

作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。 其结果,受众聚类可能被同时映射到人群分类“奢侈品-Valentino”,“汽车-宝马”和“汽车-微型车”。根据第一节所述关键词模型的优势,它至少有如下两个用途:

当一个投放策略的人群定向选择了“奢侈品”或者“汽车”时,广告允许被指定投放给受众聚类所包含的Cookies.

利用两个标签在一个细分人群中的内在关联性,推测喜欢Valentino的人对Mini Cooper也感兴趣,可尝试进行交叉投放,例如把Mini Cooper的广告投放给曾购买过Valentino商品的回头客,反之亦然。

结语

综上所述,基于关键词标签和自然聚类的受众行为分析具有很强的扩展性和实用性。易传媒持续大量的实践统计结果表明这套受众行为分析方法使得人群定向的精准度相比于原始的分类标签法提高了30%以上。 并且,易传媒在所有涉及受众行为分析的产品中都已推广这一技术方法,包括防作弊监控和人群自然属性分析等。通过搭建这样的统一分析平台,能将所有采集到的受众信息最大限度地整合利用起来,产生规模效应。对于广告需求方来说,借助这样先进的行为定向技术,同时结合地域,人口属性定向,回头客定向等手段,多管齐下,将大大提高广告投放的精准度和投资回报比,切实做到有的放矢。

by:易传媒

End.

  • 3
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
广告投放算法是指通过一系列的数据分析和计算,根据广告主的需求和目标受众的特征,将广告以最有效的方式展示给潜在的用户。csdn作为一个技术交流社区和IT人才培养平台,也在广告投放方面应用了相应的算法。 首先,csdn通过分析广告主的需求和目标受众的特征,了解广告主的推广目标和受众画像。比如,如果广告主希望将一款技术产品推广给IT从业人员,csdn会将目标受众定位为该领域的专业人士。 其次,csdn利用用户的行为数据和兴趣标签对广告进行定向投放。根据用户在csdn平台上的浏览记录、搜索关键词以及对文章、项目、问题等的兴趣标签,算法能够判断用户的兴趣偏好和职业背景,从而有针对性地展示广告。比如,如果用户经常点击与前端开发相关的文章和项目,算法会更倾向于显示与前端开发工具或课程相关的广告。 此外,csdn还会根据广告效果的反馈进行实时调整和优化。通过监测用户的点击率、转化率以及广告曝光次数等数据,算法可以评估广告的投放效果,并对投放策略进行调整。如果某个广告在特定用户群体中的转化率较高,算法会优先将该广告展示给类似的用户。 综上所述,csdn的广告投放算法通过分析广告主需求、用户特征和行为数据,实现了定向投放和动态优化。这样的算法可以提高广告的展示效果,增加广告主的曝光量和转化率,同时也能够为用户提供更符合兴趣的广告,提升用户体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值