大数据和云计算技术周报（第2期）-CSDN博客

写在第2期周报

Q1：老生常谈，上一期周报反响如何？

A1：第0期/1期持续热度高涨，同学们纷纷用红包表达了真爱。编辑部薛总表示说“大家这么支持，都有专职搞好的冲动”。另外说一句，请继续坚持打赏和支持！我们喜欢、需要你们的真爱！

Q2: 本期有啥干货？

A2: 我们的编辑队伍进一步壮大，新增了黄同学，截止目前有10位同学了。因此我们的干货越来越多，本期会给大家奉献上精彩的：新数仓、云计算、Spark、Flink、以及如何解决红黄蓝问题的视频技术，全部是大家都关心和热门的内容。

Q3：周报有啥优化不？

A3：欢迎大家持续给我们提意见，我们会持续优化，以更好的内容奉献给支持我们的读者和社区的朋友。本期开始，根据小蓝同学的建议，链接不能跳转的，文中会提供一个二维码，方便大家直接识别二维码跳转。实事求是，增加了不少编辑工作量，但是每当受到大家的打赏，感觉一切付出都是值得的，因为大家真的喜欢！

Q4:文末有彩蛋吗?

Q4:必须呀，本期特别有意思。

以下是正文，限于众编辑水平有限，不保证大家都喜欢。

1 新数仓合集

一、大数据前几年各种概念争论很多，NoSQL/NewSQL，CAP/BASE概念一堆堆的，现在这股热潮被AI接过去了。大数据真正落地到车联网，分控，各种数据分析等等具体场景。概念很高大上，搞得久了就会发现，大部分都还是数据仓库的衍伸，所以我们称呼这个为“新数仓”。

http://mp.weixin.qq.com/s?__biz=MzA3ODUxMzQxMA==&mid=2663994281&idx=1&sn=3bf17f41fd00d5ff1bd74044ab61c6fc&chksm=847c67c4b30beed20a2b746511aeb029466ad7f40c5a92a8c39aba6812bdb46298a717bd7d25&mpshare=1&scene=23&srcid=1201QGARjxzOiuejvlJd7CBv#rd

二、通过BulkLoad方式往HBase导入数据相较于通过HBase API导入或命令行导入或使用第三方(如sqoop)来导入或使用MR来批量导入（耗费磁盘I/O，容易在导入的过程使节点宕机）具有很明显的优势，它的原理就是利用HDFS存储原理及MapReduce的特性来快速导入海量的数据，具有导入过程不占用Region资源、能快速导入海量的数据、节省内存优点。

http://m.blog.csdn.net/u012608836/article/details/72621085

三、通过虚拟机优化降低GC时间，缓解java老大难问题。

http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247486452&idx=1&sn=94823897eb6d7a6d384d848ea6fc7b4f&chksm=e92936fbde5ebfedca4dd05f37ad056605a67f867f2844b815c7054c1fe65f418217a0a647aa&mpshare=1&scene=23&srcid=1203Pgab3Bs6Q8JHVbVgAlIe#rd

四、使用Solr构建Hbase二级索引的原理很简单，不过是以空间换取时间，对指定列在Solr中构建索引，最终还是通过rowkey访问Hbase 下面是对本文的一些概述

http://mp.weixin.qq.com/s?__biz=MzUwOTE3OTYwNA==&mid=2247483719&idx=1&sn=3355aab1dac73ed16e2e5a5782e8d8a5&chksm=f91762fcce60ebea55f2edbe11b5da075ec0fdbf7db7a7b37a4708ddc8cc7ffe67b32b70c9bc&mpshare=1&scene=23&srcid=12018YG4ED46cy09EyDiEM5F#rd

五、Apache Kylin的核心思想是是根据用户的数据模型和查询对数据进行预处理，具有响应快，吞吐量大等优点，但是如果不懂得如何进行优化，在处理几十个维度时就会出现磁盘占用冗余，计算资源被耗尽等。所以如果使用kylin做数据分析，那么cube优化将是必做的一项工作。本文从Kylin常用的几个优化方式入手结合自身的优化使用经验，希望对使用kylin的同学有所帮助。

http://mp.weixin.qq.com/s?__biz=MzUyMjI1Mzg4MQ==&mid=2247483843&idx=1&sn=8c9086c8d755ca1587e98c4976265242&chksm=f9cfe295ceb86b83fe38e9840e463f24359036235158a6e16ad1e7440f0b7874ccebba0e8eda&mpshare=1&scene=23&srcid=1201ucIQD4Rs4Mfr2yw3gtTG#rd

2Spark基础概念

spark作为顶级的分布式计算框架，必然存在各自节点的通信，节点之间通过rpc进行通信，基于netty开发，必然有其设计的独到之处

http://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650783027&idx=1&sn=3044dba2ba6c70e9657f63b6e6c6dec6&chksm=87fad404b08d5d12d7ac3584d4bd31b2548efc26bb66831d4404794b18fe19b3fa659c871dd5&mpshare=1&scene=23&srcid=1201gowiI5ttKbrUULs51UbL#rd

3Flink基础概念

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能。

现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为它们所提供的SLA（Service-Level-Aggreement）是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理。

Flink从另一个视角看待流处理和批处理，将二者统一起来：Flink是完全支持流处理，也就是说作为流处理看待时输入数据流是无界的；批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。

本文主要是Flink编程基本介绍。希望，大家通过本文。对Flink有更深入的认识，也对Flink编程有进一步的认识。

http://mp.weixin.qq.com/s/eO6rlJ1srsfRAgPc5K9J_g

4大数据应用

近期众人皆知的事件再次告诉我们，视频监控领域需要云计算乃至大数据、人工智能技术发挥作用。