2018年03月_nobody~

11月 10月 09月 08月 06月 05月 04月 03月 02月 01月

原创 Zookeeper集群角色分配原理

ZK内部存在Leader和Follower两个角色，那么这两种角色是怎样划分呢？或者说是怎么样被选举出来呢？以下将详细介绍ZK内部的选举机制。 ZK是通过内部的选举算法来选出Leader。（服务器需要配置对应的ID和文件）如下图所示：第一种情况：集群是全新的集群。以一个简单的例子来说明整个选举的过程. 假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都...

2018-03-30 11:11:39 1483

原创 Zookeeper的简介及命令行操作

前言作为一款第三方的协调服务框架，ZK被应用在许多地方，如：Hbase中用于存储-ROOT表的位置信息；Storm中用于保存任务分配的信息、心跳信息、元数据信息等。只要是在整个设计中需要一个第三方的组件来满足“元数据的存储、提供监听服务”的需求，ZK都可以满足。接下来就简单介绍下ZK。1、Zookeeper简介Zookeeper**是一个分布式协调服务；就是为用户的分布式应用程序提...

2018-03-30 10:53:00 312

原创 Hbase读写数据的原理解析

1、体系图针对上图的一些解释：这里面数据分区（region）存储是为了查询方便（即因为是集群所以能充分利用磁盘的IO性）。添加数据时，数据先进入Hlog–预写日志（数据只能追加不能修改）&lt;防止数据丢失&gt;，数据在Hlog写完后再写到内存中。 HFile：认为是将数据进行序列化。 StoreFile：认为是一个文件。 DFS:调用HDFS的客户端API来将数据传到HDFS...

2018-03-29 21:44:58 5949 2

原创 Hive的基本操作总结

前言：对于Hive来说最重要的一点就是能够用Hql来进行数据分析。而Hql来处理数据比MapReduce方便很多（原理是一样的，Hql底层转化为MapReduce来处理数据）。而随着技术的发展，编写MapReduce程序来处理数据也许会被慢慢淘汰，而Hql仍会保留下来（原因：1、类SQL语法，学习成本比较低。2、大数据时代对数据开发的需求，需要有这样的数据仓库来支撑。）1、Hive基本...

2018-03-29 14:46:47 1521

原创 Yarn在MapReduce中的工作机制

前言:在了解Yarn在MR中的作用的时候需要先了解Yarn是什么。1、YARN概述Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 YARN的重要概念 1、 yarn并不清楚用户提交的程序的运行机制 2、 yarn只提供运算资源的调度（用户程序向yarn申请资源，...

2018-03-28 21:02:36 890

原创 MapTask、ReduceTask并行度决定机制

前言:MapTask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度。那么，MapTask并行实例是否越多越好呢？其并行度又是如何决定呢？1、mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定，而客户端对map阶段并行度的规划的基本逻辑为：将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据划分成逻辑上的多个sp...

2018-03-28 16:03:47 2917

转自：https://www.toutiao.com/i6537465076444561934/ 最近看到的一篇不错的文章，分享给大家。（可以看下对于以下的应用各位知道几个）如今，大数据技术对企业来说不再是一种尝试和体验，它已成为企业开展业务的一个重要组成部分。根据调研机构IDC公司的调查，2017年全球大数据和业务分析(BDA)的市场收入将达到1508亿美元，和2016年相比增长12.4%...

2018-03-27 19:59:34 10122

中国计算机学会推荐各种国际学术会议和期刊目录

中国计算机学会推荐各种国际学术会议和期刊目录包含主要罗列了国际上计算机相关的各个方向的顶级学术会议和期刊目录（包含A、B、C三个等级）。包含的方向有：计算机体系结构/并行与分布计算/存储系统计算机网络网络与信息安全软件工程/系统软件/程序设计语言数据库/数据挖掘/内容检索计算机科学理论计算机图形学与多媒体人工智能人机交互与普适计算交叉/综合/新兴

2018-06-01

Linux命令大全.chm版下载

Linux离线手册，内部包含汉化的Linux命令格式及详细解释 Linux命令大全(修改版) 文件传输备份压缩文件管理磁盘管理磁盘维护系统设置系统管理文档编辑网络通讯 bye 功能说明：中断FTP连线并结束程序。语　　法：bye 补充说明：在ftp模式下，输入bye即可中断目前的连线作业，并结束ftp的执行。 ftpcount 功能说明：显示目前以FTP登入的用户人数。语　　法：ftpcount 补充说明：执行这项指令可得知目前用FTP登入系统的人数以及FTP登入人数的上限。

2017-10-21