![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
ReminderPlus
研究生在读
展开
-
大数据研发(2Hbase)2.1:hbase和传统数据库的区别
1.hbase①hbase是一个面向列存储的分布式存储系统,可以实现高性能的并发读写操作,对数据进行透明的切分。②hbase有两个主要概念,row key(行健),column family(列簇)。每个列簇包含多个列。row key 是hbase中记录的唯一标识。③hbase中列可以动态增加。eg:定义user表,然后定义info列簇,user数据可以分为info: name,info: age...原创 2018-03-15 13:41:35 · 1761 阅读 · 1 评论 -
大数据研发(3Zookeeper)3.1:Zookeeper分布式协调服务
1.zookeeper在HBase中的作用:充当Hmaster和Hregionserver之间的桥梁①保证任何时候,急群中只有一个Hmaster进程。②实时监控region server的状态,将region server的状态信息实时通知给Hmaster。③存储Hbase目录表(root表)的寻址路口(root标的起始地址)④存储Hbase的schema,包括哪些表,表中的列簇信息等各种元信息(...原创 2018-03-15 15:27:11 · 142 阅读 · 0 评论 -
大数据研发(2hbase)2.2:hbase表结构和寻址过程
1.Region是Hbase中分布式存储和负载均衡的最小单元,每个region由以下信息标识:<表明,该region的起始rowkey, 创建时间>2.hbase中的两张特殊的表(存储了hbase中所有region的信息)-root表:记录.META.表的Region信息-meta表:记录用户表的Region信息 ROOT表是一级目录,Meta表为二级目录。当Meta表存储的信息变大时...原创 2018-03-18 12:39:01 · 304 阅读 · 0 评论 -
大数据研发(2hbase)2.3:hbase读写数据过程
1.读数据流程①zookeeper存放-ROOT-表的起始地址,先从zookeeper中获取-ROOT-表,然后从-ROOT-表中获取.META.的region信息。接着读取.META.的数据,获取用户表的region信息。②根据namespace, 表名, rowkey在meta中找到对应的region信息。③根据获取到的信息,找到该region所在的regionserver。④在regions...原创 2018-03-18 13:36:31 · 151 阅读 · 0 评论 -
大数据研发(1hadoop)1.1:MapReduce过程
1.Mapreduce原理过程(1)读取hdfs文件,切片并解析成键值对(默认一行产生一个键值对,键对应地址,值为行内容)。(2)每一个键值对调用一次map函数。(3)Combiner,在输出中间结果之前,进行同一map内的键值对合并(具有相同键的键值对进行合并),减少需要传输的中间结果数据量,优化网络数据传输。(4)进行reduce之前,所有的map节点必须全部执行完,设置一个同步障(barri...原创 2018-03-14 09:26:56 · 360 阅读 · 0 评论 -
分布式协议
1.2pc分为两个阶段:投票表决阶段和提交阶段。①协调者处于init阶段,收到系统的commit请求时,向参与者多播vote-request后转入wait状态(阻塞),当接收到所有参与者的返回消息后,如果其中包含abort(终止)信息,多播global-abort,否则进入commit状态。②参与者处于init状态,接收到协调者的vote-request消息后,发出commit然后进入ready状...原创 2018-03-20 22:39:31 · 519 阅读 · 0 评论 -
分布式系统搭建
1.IP地址配置(虚拟机)ip地址 主机名 (别名)192.168.166.213 h1192.168.166.190 s1192.168.166.27 s2原创 2018-03-26 21:50:10 · 207 阅读 · 0 评论 -
大数据研发(4分布式协议):4.1Paxos协议详解
1.定义Paxos算法是基于消息传递的具有高度容错特性的一致性算法,解决分布式一致性的问题。三个角色:proposeracceptorlearners提案(proposal),最终达成一致的value在里面。...原创 2018-03-27 16:36:24 · 133 阅读 · 0 评论 -
[大数据研发]Hadoop集群搭建详细教程(自行手动搭建)
Hadoop集群的搭建一是选用商用工具CDH,该工具不必担心各个组件的之间的版本兼容问题,而且配有监控工具(后序介绍)。为了入门或者了解配置文件中各个配置的意思,本文采用传统的搭建方法,建议搜一下各个组件(jdk,hadoop,hive,hbase,zookeeper等之间的版本兼容关系,选择最合适的版本),本文选用jdk1.8,hadoop2.6。1,采用虚拟机centerOS7...原创 2018-04-12 10:53:22 · 475 阅读 · 0 评论