每周一本书之《Druid实时大数据分析原理与实践》

随着社交通信、数字广告、电子商务、网络游戏等商业模式的发展,越来越多的互联网企业诞生。他们都享受了大数据基础技术的红利,从初始就具备比较强大的数据收集、分析和处理能力,并且可以用在业务优化上。

很显然,因为行业的多样性,业务场景变得越来越复杂,对数据处理的要求已经不仅是体量大和速度快,还要数据结构灵活、编程接口强大、系统可扩展、原子化操作、高效备份、读性能加速或者写性能加速等。在这个技术普及的时代,不仅互联网行业有越来越多的技术人员和数据人员开始参与到大数据工作中,而且很多传统软件从业者也慢慢受到吸引,双方互相借鉴,进一步扩大了大数据技术的能力和影响。可以看到,传统的数据库、操作系统、编程语言等技术思想被引入来解决各种复杂的需求。因此而诞生的包括NoSQL、SQL on Hadoop、ElasticSearch这样的新事物,逐渐把我们推进到一个全新的时代。

而Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等,在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。

今天小编为大家推荐的《Druid实时大数据分析原理与实践》就是旨在帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、高级特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。

Druid_大数据_数据分析-1

Druid是一个支持在大型数据集上进行实时查询而设计的开源数据分析和存储系统,提供了低成本、高性能、高可靠性的解决方案,整个系统支持水平扩展,管理方便。实际上,Druid的很多设计思想来源于Google的秘密分析武器PowerDrill,在功能上,和Apache开源的Drill也有几分相似。Druid被设计成支持PB级别的数据量,现实中有数百TB级别的数据应用实例,每天处理数十亿流式事件。Druid之所以保持高效,有这样几个原因:一是数据进行了有效的聚合或预计算;二是数据结构的优化,应用了Bitmap的压缩算法;三是可扩展的高可用架构,灵活支持部署的扩展;四是社区的力量,Druid开发和用户社区保持活跃,不断推动Druid的完善和改进。

Druid成功应用于众多互联网和非互联网公司中,特别是用户行为分析、个性化推荐的数据分析、物联网的实时数据分析、互联网广告交易分析等领域。国内的主流广告技术公司,都曾尝试或开始采用Druid支持实时数据分析。传统技术公司如Cisco, SK Telecom,也都在使用Druid进行用户行为分析等项目。Druid帮助这些业务场景实现了高效数据存储和流式数据分析。

另外,Druid项目中也有不少中国元素,其创始人之一为中国工程师杨仿今,其他核心开发工程师也包括阿里的宾莉金、谷歌的郭秉坤等。杨仿今曾多次来到中国进行Druid的技术交流。Druid项目初期,不少中国广告技术公司参与了Druid的技术评估。目前该技术也广泛应用于中国互联网公司中,例如腾讯、阿里、小米、优酷土豆、蓝海讯通等。

本书的目的就是介绍Druid,让读者能够深入了解Druid的架构设计、使用管理,也介绍了一些高级特性和核心源码的导读。


本书从内容上共分为11个章节,分别是:

第1章:介绍Druid的初级概念;

第2章:对行业中不同的数据分析软件进行介绍和对比,包括一些时序数据库;

第3章:Druid的设计理念和架构介绍;

第4章:Druid的安装和配置;

第5章:Druid的数据摄入;

第6章:查询详解;

第7章:介绍Druid的一些高级特性,包括正在积极完善的一些功能;

第8章:核心代码的导读和分析;

第9章:集群管理中的安全和监控;

第10章:介绍几个公司的Druid最佳实践;

第11章:Druid的生态介绍和展望。

附录A:简要回答了一些常见的问题;

附录B:列出了各个服务模块的参数含义和建议值,方便系统管理。

适读人群

适合大数据分析的从业人员、IT 人员、互联网从业者阅读。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值