大数据算法_阿里十年大数据专家实践经验分享:离线和实时大数据分析和算法...

前言

阿里巴巴智能服务事业部数据开发专家。大数据践行者,致力于通过数据和算法的智能化来赋能商业与社会,拥有十余年大数据一线实战经验,尤其对于智能化产品的大数据开发、架构和未来数据产品设计有丰富经验及深入认识。对Hadoop离线数据开发技术、流计算实时开发技术、大数据开发优化以及大数据建模等有较为深入的研究。

阿里巴巴大数据开发专家撰写,源于十余年工作实践,只讲实用有效的“招式”;

庖丁解牛式讲解离线和实时开发平台架构、原理实现、开发示例,涵盖查询与优化、建模、数仓开发、流计算开发等核心技术。

c6c151a05c40f9289a8580e6aa1ffe47.png

离线和实时大数据开发实战内容,全篇内容分为三篇,共12章,由于内容实在是太多了,所以小编只把部分知识点截图出来粗略的介绍一下,每个小节都有更加细化的内容。

第一篇为数据大图和数据平台大图(第1章和第2章),主要站在全局的角度,基于数据、数据技术、数据相关从业者和角色、离线和实时数据平台架构等给出整体和大图形式的介绍。

第1章站在数据的全局角度,对数据流程以及流程中涉及的主要数据技术进行介绍,还介绍了主要的数据从业者角色和他们的日常工作内容,使读者有个感性的认识。

77406c3367c056425e9c89838ca4fe3a.png

第2章是本书的纲领性章节, 站在数据平台的角度,对离线和实时数据平台架构以及相关的各项技术进行介绍。同时给出数据技术的整体骨架,后续的各章将基于此骨架,具体详述各项技术。

第二篇为离线数据开发:大数据开发的主战场(第3~ 7章),离线数据是目前整个数据开发的根本和基础,也是目前数据开发的主战场。这-部分详细介绍离线数据处理的各种技术。

第3章详细介绍离线数据处理的技术基础HadoopMapReduce和HDFS。本章主要从执行原理和过程方面介绍此项技术,是第4章和第5章的基础。

第4章详细介绍 Hive。Hive 是目前离线数据处理的主要工具和技术。本章主要介绍Hive的概念、原理、架构,并以执行图解的方式详细介绍其执行过程和机制。

cf4ece4543d61a6b2e67d490bf561df9.png

第5章详细介绍 Hive的优化技术,包括数据倾斜的概念、join 无关的优化技巧、join相关的优化技巧,尤其是大表及其join操作可能的优化方案等。

第6章详细介绍数据的维度建模技术,包括维度建模的各种概念、维度表和事实表的设计以及大数据时代对维度建模的改良和优化等。

544baba3c4ae25bdb4b92dd8481108cd.png

第7章主要以虚构的某全国连锁零售超市FutureRetailer为例介绍逻辑数据仓库的构建,包括数据仓库的逻辑架构、分层、开发和命名规范等,还介绍了数据湖的新数据架构。

第三篇为实时数据开发:大数据开发的未来(第8~ 12章),主要介绍实时数据处理的各项技术,包括Storm、Spark Streaming、Flink、 Beam以及流计算SQL等。

第8章详细介绍 分布式流计算最早流行的Storm技术,包括原生Storm以及衍生的Trident框架。

第9章主要介绍 Spark生态的流数据处理解决方案Spark Streaming, 包括其基本原理介绍、基本API、可靠性、性能调优、数据倾斜和反压机制等。寓第10章主要介绍流计算技术新贵Flink技术。Flink兼顾数据处理的延迟与吞吐量,而且具有流计算框架应该具有的诸多数据特性,因此被广泛认可为下一代的流式处理引擎。

91d2c278fcd4c0e83152f475a89be04d.png

第11章主要介 绍Google力推的Beam技术。Beam 的设计目标就是统一离线批处理和实时流处理的编程范式,Beam抽象出数据处理的通用处理范式BeamModel,是流计算技术的核心和精华。

第12章主要结合 Flink SQL和阿里云Stream SQL介绍流计算SQL,并以典型的几种实时开发场景为例进行实时数据开发实战。

faa3c3cdbc623561d48fac9202ca3479.png

实时数据平台的整体架构大图

5837ebe8e2d09abc44fa10662f680ea3.png

主流流计算技术对比

d714bea3e6e98dd8f7fef1c160b1e712.png

专家点评

阿里机器学习算法大集结

5b9b585af5567817dce3267d31e367f6.png
17eb35fd731f8103e0b97850505ef1e0.png
779f8925b6ca0c084a845b4f197d789e.png
495756e180318b673e631aad76efcba5.png
1484b0556289a31e9f598a3b4ddb24e4.png

阿里离线和实时大数据分析和算法技术文档到此为止,小编已经全部整理完了,需要的小伙伴就可以转发此文关注小编,私信小编“学习”来得到获取方式吧~~~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值