Q1:老生常谈,上一期周报反响如何?
A1:第0期/1期持续热度高涨,同学们纷纷用红包表达了真爱。编辑部薛总表示说“大家这么支持,都有专职搞好的冲动”。另外说一句,请继续坚持打赏和支持!我们喜欢、需要你们的真爱!
Q2: 本期有啥干货?
A2: 我们的编辑队伍进一步壮大,新增了黄同学,截止目前有10位同学了。因此我们的干货越来越多,本期会给大家奉献上精彩的:新数仓、云计算、Spark、Flink、以及如何解决红黄蓝问题的视频技术,全部是大家都关心和热门的内容。
Q3:周报有啥优化不?
A3:欢迎大家持续给我们提意见,我们会持续优化,以更好的内容奉献给支持我们的读者和社区的朋友。本期开始,根据小蓝同学的建议,链接不能跳转的,文中会提供一个二维码,方便大家直接识别二维码跳转。实事求是,增加了不少编辑工作量,但是每当受到大家的打赏,感觉一切付出都是值得的,因为大家真的喜欢!
Q4:文末有彩蛋吗?
Q4:必须呀,本期特别有意思。
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
1 新数仓合集
一、 大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。概念很高大上,搞得久了就会发现,大部分都还是数据仓库的衍伸,所以我们称呼这个为“新数仓”。
二、通过BulkLoad方式往HBase导入数据相较于通过HBase API导入或命令行导入或使用第三方(如sqoop)来导入或使用MR来批量导入(耗费磁盘I/O,容易在导入的过程使节点宕机)具有很明显的优势,它的原理就是利用HDFS存储原理及MapReduce的特性来快速导入海量的数据,具有导入过程不占用Region资源、能快速导入海量的数据、节省内存优点。
http://m.blog.csdn.net/u012608836/article/details/72621085
三、通过虚拟机优化降低GC时间,缓解java老大难问题。
四、使用Solr构建Hbase二级索引的原理很简单,不过是以空间换取时间,对指定列在Solr中构建索引,最终还是通过rowkey访问Hbase 下面 是对本文的一些概述
五、Apache Kylin的核心思想是是根据用户的数据模型和查询对数据进行预处理,具有响应快,吞吐量大等优点,但是如果不懂得如何进行优化,在处理几十个维度时就会出现磁盘占用冗余,计算资源被耗尽等。所以如果使用kylin做数据分析,那么cube优化将是必做的一项工作。本文从Kylin常用的几个优化方式入手结合自身的优化使用经验,希望对使用kylin的同学有所帮助。
spark作为顶级的分布式计算框架,必然存在各自节点的通信,节点之间通过rpc进行通信,基于netty开发,必然有其设计的独到之处
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。
现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全不相同的:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理。
Flink从另一个视角看待流处理和批处理,将二者统一起来:Flink是完全支持流处理,也就是说作为流处理看待时输入数据流是无界的;批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。
本文主要是Flink编程基本介绍。希望,大家通过本文。对Flink有更深入的认识,也对Flink编程有进一步的认识。
http://mp.weixin.qq.com/s/eO6rlJ1srsfRAgPc5K9J_g
近期众人皆知的事件再次告诉我们,视频监控领域需要云计算乃至大数据、人工智能技术发挥作用。
一、一年一度的AWS盛会,一口气发布了大量服务。
http://geek.csdn.net/news/detail/246095?from=groupmessage&isappinstalled=0
二、AWS打算如何赢得下一场云计算大战的胜利?
http://soft.zhiding.cn/software_zone/2017/1128/3101121.shtml
6精选FAQ社区定期精选一些FAQ,分享给更多的人,本期推荐流专家的精彩问答:
007文末彩蛋,开心一刻
真象只有一个:乐观、勇敢、坚持!
猜你喜欢
加入技术讨论群
为了方便大家相互交流学习,创建了一个公众号同名微信群:《大数据和云计算技术交流群》,人数已经1800+,欢迎大家加下面微信,拉大家进群,自由交流。
大家可以通过下面二维码支持技术社区,大家的同学请留言写下你的名字: