11.深入分布式缓存:从原理到实践 --- Aerospike原理及广告业务应用

Aerospike 中个性化推荐广告的应用:
	用户行为日志收集系统收集日志后推送到ETL做数据的清洗和转换,把ETL过后的数据发送到推荐引擎计算每个消费者的推荐结果,
  其中推荐逻辑包括规则和算法两部分,具体的规则有用户最近浏览,加入购物车,加入收藏等,算法则包括商品相似性,用户相似性,
  文本相似性,图片相似性等算法。把推荐的结果存入Aerospike集群中,并提供给广告投放引擎实时获取。

Aerospike 在实时竞价广告中的应用:
	术语:
		RTB(RealTime Bidding) 实时竞价:一种利用第三方技术在数以百万的网站上针对每一个用户展示行为进行评估以及出价
	  的竞价技术。与大量购买投放频次不同,实时竞价避免了无效的受众到达,针对有意义的用户进行购买。它的核心是DSP(需求方
	  平台)平台,RTB对于媒体来说,可以带来更多的广告销量、实现销量过程自动化以及减低各项费用的支出。而对于广告商和代理
	  公司来说,最直接的好处就是提高了效果与投资回报率。

	    DSP(需求方平台):需求方平台允许广告客户和广告机构更方便的访问,以及更有效的购买广告库存,因为该平台汇集了各种
	  广告交易平台、网络广告、供应方平台,甚至媒体的库存。有了这一平台,就不需要再出现另一个繁琐的购买步骤---购买请求。

	    Ad Exchange(广告交易平台):一个开放的,能够将媒体主和广告商联系在一起的在线广告市场(类似于股票交易所)。交易平台
	  里的广告存货并不一定都是溢价库存,只要媒体主想要提供的,都可以在这里面找到。

	    DMP(Data-Management Platform):数据管理平台能够帮助所有涉及广告库存购买和出售的各方来管理数据、更方便的使用第三方
	  数据、增强他们对所有这些数据的理解,传回数据或将定制数据传入某一平台,以进行更好的定位。

	    SSP(Sell-SidPlatform,供应方平台):供应方平台能够让出版社也介入广告交易,从而使它们的库存广告可用。通过这一平台,
	  出版商希望他们的库存广告可以获取最高的有效每千次展示费用,而不必以低价销售出去。供应方平台,是站长服务平台。站长们可以在
	  SSP上管理自己的广告位,控制广告的展现等。

	    UserProfile(用户画像):用户画像就是把人的属性(用户的属性)数字化,变成机器可理解的方式。用户画像是根据用户的社会属性,
	  生活方式和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户打上合适的标签,而标签是通过对
	  用户信息分析得来的高精度精炼的特征标识。

	过程:
		当一个用户浏览一个加入SSP(供应方平台)的站点时,SSP会把此次请求发送到AD Exchange(广告交易平台),然后ADX会把这次请求
	  发送给多家DSP,DSP(供应方平台)根据自身的DMP(数据管理平台),通过此次用户的了解程度进行竞价,最终竞价胜出的DSP获得展现广告
	  的机会。
	  	DSP竞价胜出的关键是DMP能够根据用户的浏览历史等数据分析和定位用户属性,其中实时竞价广告中非常重要的一环节就是UserProfle(用户
	  画像)。

	实时决策流程:
		分别通过HDFS和HBASE对日志进行离线和实时的分析,然后把用户画像的标签结果存入高性能的NoSQL数据库Aerospike中,同时把数据备份到异地
	  数据中心。前端广告投放请求通过决策引擎(投放引擎)向用户画像数据库中读取相应的用户画像数据,然后根据竞价算法出价进行竞价。竞价成功之后
	  就可以展现广告了。而在竞价成功之后,具体给用户展现什么广告,就是上面说的个性化推荐广告来完成的。
	    在用户画像系统中,缓存主要用来存储用户(设备)的标签属性,根据不同的定向规则,定义的缓存数据格式不同。

	    根据上图可知,用户数据统一存储在缓存库UPF中,然后根据用户ID的加密类型(加密方式有md5,sha1,明文)分不同的缓存表,同时也会为每一个第三方
	  adx请求过来的数据建立一个缓存库,主要的作用是为了多方数据的打通和互相利用。
	    接下来主要是根据数据和运营情况,根据不同的定向条件筛选用户人群,比如对用户的兴趣、用户的消费能力、性别、是否有转化等多个维度进行描述。
	  同时,也会对不同的行业比如金融、游戏、电商等划分不同的定向条件。

	  	用户画像架构:
	    此应用架构包含实时标签引擎和离线标签引擎两个主要部分,这样设计的原因主要是处于系统投入的成本来考虑的。
	    离线标签引擎通过基于HDFS的HIVE/SPARK 对设备的APP安装情况,以及广告投放的效果数据,根据规则和算法,然后把标签数据缓存于AS CACHE中,
	  这里的AS 就是Aerospike。然后提供给广告引擎做精准广告投放的判断依据。
	    通过离线计算的数据和日志主要都是数据量大,而且实时要求并不是很高,比如说广告请求日志,竞价日志等;而实时标签引擎则主要处理效果数据等,
	  对实时性要求比较高的数据,比如广告展现、点击、转化数据等。
	    对于ADX渠道而言,由于对接的渠道数据各有各的特点,需要区别对待。从设备标识来讲,有些渠道的设备标识是明文的,而有些是通过md5或者sha1加密,
	  比如像bat这样的流量渠道把用户的设备ID通过加密的方式传给DSP,为了尽量把这些数据都利用起来,则需要把这些数据分别存放在不同的缓存库中,如
	  SHA1USER 和 MD5USER 用来存储通过sha1和md5加密的渠道设备数据。如果渠道设备ID是明文的,则要通过加密后分别保存到SHA1USER 和 MD5USER 中,
	  以供各渠道之间进行用户数据的共享,终极目的离不开完善人群库,提高广告的精准度。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值