老孙的博客

一个讲述IT界故事的老孙

互联网数字营销广告管理平台应用

项目背景及挑战

由于数字营销发展迅猛,数据源和处理方式多种多样,要求越来越高,根据AdMaster公司实际应用场景经过10多年的打磨,构建了一套互联网数字营销广告管理平台。

公司要为数千家客户提供广告监控、舆情分析、人群画像等多方面的技术支持,每天处理的数据包含广告数据、舆情数据、第三方数据等等多样化且数量较大的数据,所以我们面临的主要挑战就是:如何把每天上百亿的数据整合和计算,以满足公司多业务多产品线的需求。

AdMaster成立于2006年,是领先的营销数据技术公司,利用先进的大数据技术帮助品牌指导营销策略并预先量化营销效果。经过11年的发展,公司总人数现有员工400多人,其中本科及以上的科技人员300人,占公司员工总数的75%。公司与国际、国内超百家媒体及上下游合作伙伴保持长期合作关系,保证了公司作为数据枢纽的多方数据源对接和融合。致力于促进数字营销行业和大数据产业的蓬勃快速发展,推动行业标准的建立,并以知识贡献者的身份为行业不断培训、输入专业人才。

技术方案

方案选型与对比

对于我们面临的问题,在国内外也有很多同类型的产品平台,基本可以分为三大类,一类是商业购买的商业平台,一类是基于开源软件搭建并附加上自己的产品逻辑,AdMaster分布式混合异构大数据系统属于第三类,即对开源软件的改造和整合。下表分别比较这三种平台的特点。

图片描述

经过以上分析,最终我们选择了自主研发的“混合异构营销数据平台”。对于此平台的具体细节,下面分别阐述:

项目平台整体架构

AdMaster自主研发了针对不同行业领域的信息爬取系统,可以支撑电商、微信、微博、新闻、论坛、问答等多种渠道每天数十亿计的互联网页面信息的爬取,是大数据平台和AdMaster业务需求中不可或缺的文本型半结构化数据。在多维度、多结构的数据源和大数据平台强大的数据处理能力的支持下,系统中AI(人工智能)和BI(商业智能)的经验和模型发挥极大作用,数据聚类算法、NLP(自然语言识别技术)、数据关联分析、受众画像建模等等技术得以快速的发展,提升了AdMaster的技术水准和服务效率,也帮助客户获得了更好的营销效果。

图片描述
图1 项目系统整体架构

关键技术

(1)大数据数据存储与管理技术

分布式存储技术:解决元数据管理、系统弹性扩展技术、存储层级内的优化技术、针对应用和负载的存储优化技术,针对营销活动的各环节,采用不同的方案,从最底层来优化存储,并为后续的计算优化打下基础。

采用的存储方案:根据营销面向的不同行业的特性,对数据的管理、查询以及分析的性能需求,数据规模和吞吐量的增长需求,主要采用关系型数据库、非关系型数据库、实时数据库、列式数据库等存储方案。

(2)数据可视化技术

传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。采用可视化开发工具Spark GraphX和Moojnn解决方案等技术,保证营销数据可视化应用效果,能够快速地收集分析数据并对数据信息进行实时更新。数据可视化展现包括表格、图表、图形、示意图、地图和标签云图,从而使用户能够创建简单的仪表板或者炫丽的监管 信息图表和可视化效果。通过最新的HTML5技术,可最大化呈现丰富的数据内容,并兼容平板电脑、智能手机和个人计算机,实现移动监管。

(3)大数据分析与挖掘技术

采用统计分析技术,把计算推向数据并且并行处理,使Hadoop获得了强大的深度分析能力。经过算法的并行化,突破原有的可处理数据的技术瓶颈,利用并行计算模式大幅度提高了工具的计算性能,同时赋予了系统技术深度分析的能力。

图片描述
图2 算法分析图

(4)人工智能和商业智能技术

把人工智能和商业智能应用于数字营销领域,AdMaster也做出了长足的努力。我们在 NLP、图像模式识别、跨设备多ID用户识别等方向取得可喜成果,并运用在了社交情感分析、DMP数据管理平台和受众分析等商业产品。秒级别内分析客户所关注的关键词的社会反响,涵盖新闻、论坛、微信和微博等等公众平台。经过历史验证,情感分析的准确度已经可以达到 70% 以上,热点事件发现延迟在 1 小时以内。让客户第一时间知道自己产品的社会影响,同时也可以知道竞品的相关情况。图像模式识别方向,采用了深度学习算法,AdMaster 应用于 Snap 监播实录的特定广告识别技术,使用自研的特征识别和匹配算法,部署在 400 多台服务器的计算集群上,全天候不停歇地对已经投放的广告时行识别,每天监控的广告数在 50 亿次以上。不仅可以识别简单的 banner 广告,还可以对视频广告进行有效的识别。这项技术的应用,代替了以往占用了大量人力的“人肉广告作弊识别”,为广告代理公司和顾问团大大降低了成本,而且监控的范围也比以前有了 100 倍以上的提升。随着手机和各种移动设备的普及,拥有两部以上的手机或电脑和其它智能设备,已经变得相当普遍,如果可以实现跨设备多 ID 用户识别,无疑可以更好的帮助广告主识别受众。AdMaster 充分利用自己多年数字营销的经验,以超过 2000 亿的的广告数据为基础,基于每秒 400w 次并发查询 的高效 key-value 查询系统,研发了多 ID 识别算法,很好地实现了一人多机的识别。

商业智能方面,AdMaster则主要致力于多维数据组合查询、用户自定义数据分析、基于 “人-事件”的受众人群分析等方向。具体来说:多维数据组合查询,主要应用于广告数据分析。基于 AdMaster 的大数据分析平台,每天分析 100 亿以上的广告数据,从 50 多个维度的各种组合来透视这些广告数据的价值,每天 5:00 以前为所有广告主提供准确的报表。使用 Web 2.0 技术,动态平滑升级,可以做到用户无感知。数据查询速度也在秒级完成。作为固定多维度查询的补充,广告系统还支持用户自定义数据分析:

AdMaster通过提供一整套的可视化数据处理接口,用户只需要在页面上点上几一,就可以按自己熟悉的语言来定制特殊的数据处理逻辑。我们提供近 100 个营销数据维度作为原材料,用户可以按时间、地域、广告媒体、广告位置、广告创意等多个细分维度计算数据的相关性,计算数据分布和其它多种指标,1T数据的处理延迟只有 10 秒以内。基于“人-事件”模型的受众人群分析系统,则按“以人为本”的使用方法提供了全方位的支持。本系统综合了 AdMaster 广告产品线、社交产品线、调研产品线和数据交换产品线等多条产品线的所有数据,以受众为中心,把所有信息串联起来,除了可以回答 “这个 ID 在什么时间什么地方上过哪些网站?”这类简单问题,还能回答诸如“这个 ID 是什么性别?” “这个ID 大概什么年纪?” “这个 ID 喜欢足球吗?” “这个 ID 家里有婴幼儿吗?”等等关于人的问题, 结合上文提到的多 ID 识别,它还可以回答“这两个 ID 是同一个人吗?”这样的问题。有了它,使得定向广告投放和精准广告投放如虎添翼。另外,这一系统已经作为 AdMaster 的一项独立对外业务开放。

(5)数据质量控制技术

由业务系统中获取的数据首先进入ODS,ETL引擎根据元数据规范和业务规则对ODS数据进行整合处理,正常数据进入主题数据库,完成整合,异常数据进入数据质量管理系统进行人工干预。数据质量管理系统对异常数据进行人工干预,通过人工干预可处理的批量数据进行临时库,由ETL根据新的规则进行处理。通用地干预措施形成元数据规范,进入元数据规范标准,无法处理的数据暂存到临时库,通知业务单位处理。

图片描述
图3 项目ADH数据处理架构图

图片描述
图4 项目ADH数据处理流程图

项目创新点

(1)自主研发的高并发数据采集服务端,支持分布式部署,满足全国多机房实时数据收集汇总的管理平台,兼顾备灾容错,保证数据不错不漏。自动识别服务器和数据结构的差异,并自动优化配置。

(2)基于业务线的数据特点、计算任务的特性,自动化调度优先级,智能调配计算资源。

(3)计算任务瓶颈的辅助分析工具,为研发、测试、建模等团队提供代码级的优化建议。

(4)利用页面仿真录屏系统,可以对用户浏览页面乃至广告的过程进行模拟并录屏,真实的还原页面浏览、广告播放的过程,也是重要的网页采样和信息留档数据。

(5)在日常数据采集中,采集大量地理经纬度和POI信息。对于这些数据,大数据平台会自动进行曲面几何转换后,再行存储利用。

(6)利用多数据源的整合和复杂数据结构的兼容,全方位地分析和整理多维度的数据,对于业务决策给出有效支持。

(7)为方便数据建模团队进行各种数据实验和算法模拟,大数据平台还提供了交互式的数据分析平台,支持数据建模团队使用 R、SQL、Spark 脚本等多种方式,进行实时的交互式数据分析和图表展示。

(8)针对数据结构复杂、数据源多的业务特点,设计了创新的消息队列架构,为多种渠道的数据源对接,提供了实时和稳定的消息收发支撑平台。

(9)构建了基于大数据的自动分析和建模体系,并在数据入库前的清洗阶段引入了虚假数据过滤模型(反作弊技术),模型可以动态自动学习和更新,从而在第一时间发现数据异常,并可以自动向各相关业务系统发出异常预警。

(10)在部署了该技术方案后,企业的业务能力的提升了50%,特别IT系统成本减少了超过20%,但性能提高了30%。

经验总结

在部署本方案后, AdMaster实现了多个非常理想的指标:

(1)高并发数据采集服务端,单个采集节点可以支持12000次/秒的数据采集请求, 并且支持分布式部署,从而支持全国范围的营销数据采集服务。

(2)满足全国 30 多机房实时数据收集汇总的管理平台,数据汇总延迟不超过 3 分钟。

(3)采用消息队列架构,为多种渠道的数据源对接,提供了实时和稳定的消息收发支撑平台,系统间协作零延迟。

(4)支持数据建模团队使用 R、SQL、Spark 脚本等多种方式,进行实时的交互式数据分析和图表展示。数据科学家和数据工程师可以同时使用同一平台同,同时处理上千亿的数据。

(5)信息收集系统可以支撑电商、微信、微博、新闻、论坛、问答等多种渠道每天数十亿计的互联网页面信息的爬取。

(6)可以支持大量地理经纬度和POI信息。对于这些数据,大数据平台会自动进行曲面几何转换后,再行存储利用。

经验和教训

而本平台的实施过程中,我们也踩了无数的坑,下面列举一二:

(1)由于很多开源平台(如 Hadoop)不是为了这么大的数据量而设计的,在数据量大到一定程度后,会出现各种诡异的问题,这时需要有精通源代码的工程师来搞定诡异的问题。

(2)大数据时代,基础 IT 设施的建议更为重要:有很多次,我们的系统因为硬盘的突然故障和 DNS 的解析而出现莫名其妙的的问题。

(3)时间同步,对于大数据平台来说,至关重要,平台在设计和使用时,一定要考虑时间可能不同步的问题。

阅读更多
版权声明:本文为CSDN原创文章,未经博主允许不得转载。 https://blog.csdn.net/sunhf_csdn/article/details/80133240
上一篇滴滴实时计算平台在运营监控方面的应用
下一篇大国崛起:数据库领域的中国力量
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭