- 博客(7)
- 资源 (12)
- 收藏
- 关注
原创 Zookeeper集群角色分配原理
ZK内部存在Leader和Follower两个角色,那么这两种角色是怎样划分呢?或者说是怎么样被选举出来呢?以下将详细介绍ZK内部的选举机制。 ZK是通过内部的选举算法来选出Leader。(服务器需要配置对应的ID和文件)如下图所示: 第一种情况:集群是全新的集群。以一个简单的例子来说明整个选举的过程. 假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都...
2018-03-30 11:11:39 1483
原创 Zookeeper的简介及命令行操作
前言作为一款第三方的协调服务框架,ZK被应用在许多地方,如:Hbase中用于存储-ROOT表的位置信息;Storm中用于保存任务分配的信息、心跳信息、元数据信息等。只要是在整个设计中需要一个第三方的组件来满足“元数据的存储、提供监听服务”的需求,ZK都可以满足。接下来就简单介绍下ZK。1、Zookeeper简介Zookeeper**是一个分布式协调服务;就是为用户的分布式应用程序提...
2018-03-30 10:53:00 312
原创 Hbase读写数据的原理解析
1、体系图 针对上图的一些解释: 这里面数据分区(region)存储是为了查询方便(即因为是集群所以能充分利用磁盘的IO性)。添加数据时,数据先进入Hlog–预写日志(数据只能追加不能修改)<防止数据丢失>,数据在Hlog写完后再写到内存中。 HFile:认为是将数据进行序列化。 StoreFile:认为是一个文件。 DFS:调用HDFS的客户端API来将数据传到HDFS...
2018-03-29 21:44:58 5949 2
原创 Hive的基本操作总结
前言:对于Hive来说最重要的一点就是能够用Hql来进行数据分析。而Hql来处理数据比MapReduce方便很多(原理是一样的,Hql底层转化为MapReduce来处理数据)。而随着技术的发展,编写MapReduce程序来处理数据也许会被慢慢淘汰,而Hql仍会保留下来(原因:1、类SQL语法,学习成本比较低。2、大数据时代对数据开发的需求,需要有这样的数据仓库来支撑。)1、Hive基本...
2018-03-29 14:46:47 1521
原创 Yarn在MapReduce中的工作机制
前言:在了解Yarn在MR中的作用的时候需要先了解Yarn是什么。1、YARN概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 YARN的重要概念 1、 yarn并不清楚用户提交的程序的运行机制 2、 yarn只提供运算资源的调度(用户程序向yarn申请资源,...
2018-03-28 21:02:36 890
原创 MapTask、ReduceTask并行度决定机制
前言:MapTask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,MapTask并行实例是否越多越好呢?其并行度又是如何决定呢?1、mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定,而客户端对map阶段并行度的规划的基本逻辑为: 将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个sp...
2018-03-28 16:03:47 2917
转载 20个顶级大数据软件应用程序
转自:https://www.toutiao.com/i6537465076444561934/ 最近看到的一篇不错的文章,分享给大家。(可以看下对于以下的应用各位知道几个)如今,大数据技术对企业来说不再是一种尝试和体验,它已成为企业开展业务的一个重要组成部分。根据调研机构IDC公司的调查,2017年全球大数据和业务分析(BDA)的市场收入将达到1508亿美元,和2016年相比增长12.4%...
2018-03-27 19:59:34 10122
中国计算机学会推荐各种国际学术会议和期刊目录
2018-06-01
Linux命令大全.chm版下载
2017-10-21
mysql-connector-java-5.1.32.jar
2017-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人