![](https://img-blog.csdnimg.cn/20190709135326940.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据开发
目前大数据开发以中间件的身份,衬托着大数据算法,将人工智能推向一个新高度,云计算成了我们的新词汇,在这方面,又随着国外技术的引进,让我们舍弃了从前的mr,熟悉了流行的spark flink,又初步知道了beam,技术的更新迭代,让我们更加意识到,大数据开发的重要性。
2NaCl
主攻Java后端开发与云计算Paas平台、离线大数据平台相关
展开
-
大数据开发这么多技术,到底都能用在什么场景里
我们在大数据开发的过程中会接触到各种各样的集群,各种各样的技术,那么这些技术该如何组合完成架构呢,这也是一种学问。在大数据开发中,技术分为三类:存储、计算、资源管理。最基本的存储技术就是HDFS,比如在企业级的应用中,会把通过各种渠道得到的数据,比如说用户行为日志,关系数据库的数据,埋点采集的数据统一存储到HDFS上,为后续提供作用。HBase作为Nosql类非关系型数据库的代表,从分类上...原创 2019-08-02 23:15:33 · 306 阅读 · 0 评论 -
ZooKeeper是如何保证数据一致性的
在之前说HDFS和HBase架构的时候就说到了Zookeeper,在分布式系统的多台服务器要对数据状态达成一致,其实是一件很有难度的事情,因为服务器集群的硬件的问题随时会发生,所以对数据的记录保持一致,是需要一定技巧的。今天要说的就是分布式系统一致性和Zookeeper架构。我们知道HDFS为了保证整个集群的高可用,需要部署两台NameNode服务器,一台作为主服务器,一台作为从服务器。当主服...原创 2019-08-02 00:26:51 · 3363 阅读 · 0 评论 -
流式计算的代表:Storm、Flink、SparkStreaming
目前大数据开发的圈子里比较常用的计算框架有Storm、Spark Streaming、Flink,接下来逐一来看看它们的架构原理和使用方法。Storm在早期的时候,我们主要会使用MQ来实现大数据实时处理,如果处理的逻辑很复杂,就需要很多个消息队列。将实现不同业务逻辑的生产者和消费者串起来。架构图如下:图中的消息队列负责完成数据的流转,处理逻辑既是消费者也是生产者,也就是既消费前面消息队列的...原创 2019-08-01 13:36:53 · 357 阅读 · 0 评论 -
BigTable的开源实现:HBase
在计算机数据存储领域,一直是关系型数据库(RDBMS)的天下,以至于在传统企业的应用领域,许多应用系统设计都是面向数据库设计,也就是先设计数据库后设计程序,从而导致关系模型绑定对象模型为了解决关系型数据库无法处理海量数据的不足,于是就有了nosql的概念。NoSql,主要指非关系的,分布式的,支持海量数据存储的数据库设计模式。而今天要说的,也就是HBase。简单来说,HBase就是专门用来存...原创 2019-07-31 08:34:37 · 563 阅读 · 0 评论 -
Hive是如何让MapReduce实现SQL操作的
之前我们说过了MapReduce的运算流程,整体架构方法,JobTracker与TaskTracker之间的通信协调关系等等,但是虽然我们知道了,自己只需要完成Map和Reduce 就可以完成整个MapReduce运算了,但是很多人还是习惯用sql进行数据分析,写MapReduce并不顺手,所以就有了Hive的存在。首先我们来看看MapReduce是如何实现sql数据分析的。MapReduce...原创 2019-07-30 11:35:02 · 791 阅读 · 0 评论 -
为什么我们管Yarn叫作资源调度框架
我们知道,Hadoop主要由三部分组成,除了之前说的MapReduce,还有分布式文件存储系统HDFS,和分布式集群资源调度框架Yarn。本篇专栏就来主要的来说一下Yarn框架,它使Hadoop从一个单一的大数据计算引擎,成为了一个集存储,计算,资源管理为一体的大数据平台,进而发展出自己的大数据体系。Yarn的发展首先我们来看一下,单纯MapReduce的架构思路:MapReduce最核心的就...原创 2019-07-30 08:23:47 · 189 阅读 · 0 评论 -
MapReduce如何让数据完成一次旅行
我们应该已经知道MapReduce不仅仅是一个分布式计算的框架,更加也是一种算法,常规的算法中,我们也可以使用这种模型去进行运算,也就是Mapper - Reducer 过程 ,但是,MapReduce还有很多看不见的过程,也是让我们值得去探究一下的,比如说shuffle,就是相当关键的一个环节,我们都知道这是混洗,但是混洗的具体过程是什么,又是问题,所以这篇文章将会主要讲述一下MapReduce...原创 2019-07-29 16:14:22 · 170 阅读 · 0 评论