广告投放

对于广告投放系统而言,其技术难点主要集中在以下几个方面
1.高并发请求的处理
作为服务于大量媒体的广告投放系统。其系统负载往往是其所服务的各个媒体的负载总
和。同时,广告投放业务的实时特性也决定了系统必须能对广告投放请求给出最快程度
的响应,由于延时导致的_r=告投放滞后或者失败,将对广告投放的效果和客户体验造成
较大影响。因此,高并发负载支持,作为系统设计成败的关键性因素,必须纳入系统设
计的核心议题。
2。海量数据的汇总与分析
高著发量下24小时的持续运转,必将导致海母数据的产生,如何对这些数据进行即时有
效的处理,成为广告效果事后评定的关键问题。
3.定向策略的设计与实现
在保证了以上两点,满足正常运营需要的基础之上。通过广告定向,特别是内容相关性
定向技术进一步提高广告投放效果,就成为系统在市场上获取实际竞争能力的重要砝码
之一。
本章将着重对这些系统实现中的关键性问题以及解决方案进行分析和论述。
4.1中文分词索引技术
在定向广告投放模式中,基于语义匹配的相关性分析算法为目前较为领先的模
式。
广告投放过程中,为了提高广告的实际效益,需要做到广告的内容相关性投放,
如在某个社区性站点的某个手机讨论主题页面中,投放与之相关的手机广告。而在某
个化妆品讨论主题中,投放相应的化妆品广告内容。
这就要求广告系统必须能够对广告位所在的具体页面进行语义分析,并判定其与
目Ijil存投广告的相关指数,随后根掘此相关指数完成广告的精确投递。
目lj{『,google adsensc广告系统,借助google强大的搜索引擎和语义分析技术,
第28贝共40贝
丈规模广告投放系统的设计与实现第五章系统实施
在此领域独占鳖头.其产生的巨大效益已经得到实际市场证实。考虑到未来的市场发
展和竞争力提升,本系统也将基于语义分析的内容定向功能纳入框架设计之中[6】。
在本部分中,将围绕语义匹配中的关键性算法一中文分词索引技术进行分析论
述。
中文分词索引技术,是实现页面内容定向(根据页面内容投放与页面内容相关的
广告)的关键技术。
其中,分词算法和索引数据结构的设计是系统实现的关键。
4.1.1分词算法设计
在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每
个文字序列中所包含字符串的索引。当输入检索语句后,也同样进行分割,与索引进
行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正
确检索。
文字的分割方法主要有两种,分别是词语解析索引和文字索引。【14】
词语解析索引是按照字典中最小的词语单位对文本进行分割,既按词义切分。
文字索引是不考虑文本中词的意义,只是按照一定的字长的单位进行切分。
如对于以下句子“今天中午天气不错。”
用词语解析索引得到的结果是:
“今天、中午、天气、不错”。
用文字索引得到的结果是(以二元切分为例):
“今天、天中、中午、午天、天气、气不、不错”
表面上束看,词语解析索引得到的结果更加符合实际的阅读习惯。但是,在实际
操作中,由于词库容积的限制,我们很难把所有的词汇都进行过滤,因而可能造成索
引命中率过低。
另一方面,由于NLP技术目酌发展程度决定,语义切分实际误差还较大,很容
易导致误差扩散a使其相关性方面的优势也大打折扣【10】。
如:“我马上从马上下柬”。这样的语义,通过现有的语义切分技术还难以识辨其
『日J语义的误差。而由于语义的违带效应,可能导致对出现此句的整段文字分析都出现
较大偏差。
文字索引,产生的关键字一定比词义切分要多.但是同样也存在明显的缺陷,它
第29贝共40负
企业形象http://www.chuangtufang.com/qiyexingxiang
大规模广告投放系统的设计与实现第五章系统实施
很难提高搜索的相关性.在提高了搜索关键字的命中率的同时,降低了索引结果的相
关性。
考虑到以上两方面因素,本系统选择了二者相结合的分词算法【15】,具体过程如
下:
首先,过滤文本中的stopword,如某些助词“是” “了” “吗”
以优先词汇表,对文本内容进行过滤,优先词汇表中包含了我们最关心的热点词
汇,如行业相关术语,常用业务词汇等。
以二元分词算法,对文本内容进行过滤
对以上内容进行合并归整。生成索引结构保存。
4.1.2索引数据结构
本系统采取倒排文件索引结构[8】。该结构及相应的生成算法如下:
假设有两篇文章1和2
文章1的内容为:Tom hves in Guangzhou,I live in Guangzhou too
文章2的内容为:HeoncelivedinShanghai.
1)首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施
a我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即
分词。英文单词由于用空格分隔,比较好处理。中文单词l’日j是连在一起的需要特殊的
分词处理。
b.文章中的⋯in’,“once⋯‘too”等词没有什么实际意义,中文中的“的”“是”等字通常
也无具体含义,这些不代表概念的词可以过滤掉
c用户通常希望查“He”时能把含“he”,“HE”的文章也找出来,所以所有单词需要
统一大小写。
d用户通常希望查“live'’时能把含“lives”,“lived”的文章也找出柬,所以需要把
第30负共40负
^艇模广告投盘系统的垃计与垒瑰鲳五章幕统实施
“lives'’,“lived”还原成“live',
e.文章中的标点符号通常不表示某种概念,也可以过滤掉
经过上面处理后
文章1的所有关键词为:nol川[1ive】[guangzhou][i】【live][guangzhoU]
文章2的所有关键词为;Ihe】[1ivej【sh8Ilg}】ai】
2)有了关键词后,就可以建立倒排索B1了。上面的对应关系是:“文章号’耐“文章中
所有关键词”。倒排索引把这个关系倒过来,变成:“若键词”对“拥有该关键词的所有
文章号”。文章l,2经过倒排后变成
荧键词文章号
guangzhou l
ne
I
live
shanqha
tom
Z
1
1,2
2
1
通常仅知道关键词在哪些文章中出现还不够,我们还需要知道关键词在文章中出现次
数和出现的位冒,通常有两种位冒:种字符位置,即记录设词是文章中第几个字符(优
点是关键词亮显时定位快);b)关键词位置,即记录_i幺词是文章中第凡个关键_囿(优
点是节约索引空问、词组(phase)查询快)。
自u上”出现频车”和”出现位胃”信恩后,我们的索引结构变为
关键词文章号【出现频率1
guangzhou
he
I
llve
shanghai
第’1虫共40负
蝇6

珊玉
。4
o


2
㈣硼州驵硐
企业形象http://www.chuangtufang.com/qiyexingxiang
大规模广告投放系统的设计与实现第五章系统实施
tom 111】1
以live这行为例我们说明一下该结构:live在文章l中出现了2次,文章2中出
现了一次,它的出现位置为‘‘2,5,2”这表示什么呢?我们需要结合文章号和出现频率来
分析,文章l中出现了2次,那么‘‘2,5”就表示live在文章l中出现的两个位置,文章
2中出现了一次,剩下的‘‘2”就表示live是文章2中第2个关键字。
关键字是按字符顺序排列的,因此可以用二元搜索算法快速定位关键词。
下面可以通过对该索引的查询柬解释一下为什么要建立索引。假设要查询单
词“live'’,首先对词典二元查找、找到该词,通过指向频率文件的指针读出所有文章
号,然后返回结果。词典通常非常小,因而,整个过程的时间是毫秒级。
合理的分词算法和索引结构,是语义分析的基础。对于广告投放系统而言,对语
义分析技术的要求虽然不如搜索引擎那样严格,但也要求达到较高的准确度和匹配
度。
在本系统初期,出于降低技术实现难度和复杂度的考虑,并未引入NLP语义分析
算法。然而,随着系统的发展和成长,NLP技术也将逐渐纳入技术体系之中。
4.2分布式大规模并发设计
作为广告投放系统,其访问量为广告资源所属网站的总和。显然,如果系统对Sma,
Sohu进行广告投放,那么,每次用户访问Sina,Sohu页面时,即触发一次广告投放行
为。此时,广告系统承受的并发量,即为Slna+Sohu的网站并发量总和。
高度密集的访问压力和流量压力,要求广告系统必须能通过合理的体系架构,在
超大规模的并发访问下,保持高速的响应速度。
提高广告系统响应速度有两个方面课题:
1.钉对高并发运算的负载均衡
2.流量区域分流
_针对高并发运算的负载均衡
第32贝共40负
大规模广告投放系统的设计与实现第五章系统实旌
显然,任何单机系统,都难以承受如此高密度的运算压力。在本系统中,结合网
络系统特点,我们采取了基于双四层交换的负载均衡解决方案【5】。
四层交换负载均衡的原理即通过网络四层交换机,在应用协议层,对请求进行分
流。
四层交换机可根据集群中各服务器子节点目前的性能压力,选择负载较轻的一个
节点,将外围请求转发到此节点之上,并由此节点完成运算后返回。川
所谓双四层交换体系,由中心四层交换机和子网四层交换机组成。中心交换机从
子网交换机获取子网集群目前的实时性能参数,将相应的请求转发至子网四层交换
机,而再由子网四层交换机完成请求的最终分流和处理返回。
双四层交换利用多层次的压力分解,实现了网络集群的再集群处理。从而提供了

可满足本系统并发要求的整体性能指标【9】。


第33贝共40页
企业形象http://www.chuangtufang.com/qiyexingxiang
大规模广告投放系统的设计与实现第五章系统实施
_系统区域分布式设计与区域缓存系统
Intemet带宽不断增加,但用户数量也在不断增加,同时受路由节点和传输距离等
因数的影响,Web响应速度仍然较慢。
另一方面,由于国内网络服务商之间的互联互通问题,网通与电信之间难以做到
高速互联。经测试,广州客户访问北京节点,平均传输速度仅为3k/S,在这样的网络
条件下,富媒体(如流媒体)投放到达率大大降低。
对于广告系统而言,如果不能特定的时间片断内,将广告内容投放至用户终端,
那么无疑将大大降低广告的效果甚至引起终端用户的不满。
为了解决这个问题,我们引入了分布式设计和区域缓存技术。即在全国各个物理
区域分别部署缓存节点,根据终端用户的IP地址,将其引导至地理地址最近的节点。
其中主要技术为智能域名解析技术和网络缓存技术。
智能域名解析【2】
即针对同一域名,通过动念域名解析返回与物理终端最接近的服务节点的服务器
IP地址。
网络缓存技术
其目的就是减少网络中冗余数掘的重复传输,使之最小化,将广域传输转为本地
或就近访问。缓存服务器及应用缓存技术的网络设备,可大大优化数掘链路性能,消
除数掘峰值访问造成的结点设备阻塞。缓存服务器具有缓存功能,所以大部分网页对
象,如gif,tff,png,bmp等图片文件,以及其他格式的文件,在有效期(TrL)内,对
于重复的访问,不必从原始网站重新传送文件实体.只需通过简单的认证(Freshness
Val,dation).传送几十字节的Head。,,即可将本地的萄裂l嬲羝给访问者。出于缓
存服务器通常部署在靠近用户端.所以能获得近似局域网的响应速度,并有效减少广
域带宽的消耗。掘统计,Intemet上超过80%的用户重复访问20%的信息资源,给缓
存技术的应用提供了先决的条悄。缓存服务器的体系结构与Web服务器不同,缓存
服务器能比Web服务器获得史高的性能.缓存服务器不仅能提高响应速度,节约带
宽,对于加速Web服务器,有效减轻源服务器的负荷是非常有效的。
第34负共40贝
太规模广告投放系统的设计与实现第五章系统实施

以下是本系统所采用的全局拓扑图:


4.3海量数据处理技术
考虑大最大程度缩短请求响应时间,以满足实时高并发处理的要求。系统采用了
实时记录访问开志,而以定时批处理的方式对R志文件进行处理的实现模式。
而高并发处理的持续运行,必将产生海量级的请求R志文件。根据设计指标。每
天2亿次的最大访问容量,将导致将近lGB的文本只志文件的产生。
为了能及时有效的对超大容积的文件进行解析、过滤和统计。本系统采取了多层
分粕处理的解决方案。
首先,由于实现中采用了智能域名解析技术,束自不同地理位胃的访问者,将根
据其IP分发到不同的处理子节点。那么,在子节点。纠对区域访问者的请求开志进
行时段批处理就成为自然的解决之道。
予节点同志处理服务器在完成本区域的日志分析和统计之后,将结果上传至中央
节点.出于访问量巨大,来自各予节点的数据总和往往也非单机所能运算处理。因此,
第35负共40贝
企业形象http://www.chuangtufang.com/qiyexingxiang
——查堡堡£童壑垫墨燮生兰壅堡墨至兰墨竺壅堕
在中央节点,我们引入了二层分级处理体系【4】。
即在中央节点,引入三台以上的日志综合处理系统【7】,分为两层,底层日志处理
服务器主要针对指定区域的数据进行分析统计,如服务器A完成来自上海、广州数
据中心的R志数据汇总,服务器B完成来自北京、西安的日志数据汇总,而由服务器

C,对服务器A和B分别汇总的结果进行二次汇总,从而得到最终的统计报报表。




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
广告投放算法是指通过一系列的数据分析和计算,根据广告主的需求和目标受众的特征,将广告以最有效的方式展示给潜在的用户。csdn作为一个技术交流社区和IT人才培养平台,也在广告投放方面应用了相应的算法。 首先,csdn通过分析广告主的需求和目标受众的特征,了解广告主的推广目标和受众画像。比如,如果广告主希望将一款技术产品推广给IT从业人员,csdn会将目标受众定位为该领域的专业人士。 其次,csdn利用用户的行为数据和兴趣标签对广告进行定向投放。根据用户在csdn平台上的浏览记录、搜索关键词以及对文章、项目、问题等的兴趣标签,算法能够判断用户的兴趣偏好和职业背景,从而有针对性地展示广告。比如,如果用户经常点击与前端开发相关的文章和项目,算法会更倾向于显示与前端开发工具或课程相关的广告。 此外,csdn还会根据广告效果的反馈进行实时调整和优化。通过监测用户的点击率、转化率以及广告曝光次数等数据,算法可以评估广告的投放效果,并对投放策略进行调整。如果某个广告在特定用户群体中的转化率较高,算法会优先将该广告展示给类似的用户。 综上所述,csdn的广告投放算法通过分析广告主需求、用户特征和行为数据,实现了定向投放和动态优化。这样的算法可以提高广告的展示效果,增加广告主的曝光量和转化率,同时也能够为用户提供更符合兴趣的广告,提升用户体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值