![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
辣条好辣
这个作者很懒,什么都没留下…
展开
-
HDFS读写流程
一,HDFS简介hdfs(Hadoop Distributed File System)是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件,并且是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各自负责角色(角色即进程);重要特征:1.HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hado...原创 2018-10-17 10:31:53 · 217 阅读 · 0 评论 -
Hadoop2.0中HDFS高可用性的实现原理
在Hadoop1.0中,NameNode在HDFS集群中存在单点故障问题,每一个集群中只存在一个NameNode,如果NameNode所在的机器出现故障,那么整个集群就无法利用,直到NameNode重启或在另一台主机上启动NameNode守护进程。因此,有两个因素影响了HDFS的高可用性:(1)、在不可预知的情况下,如果NameNode所在的机器崩溃了,整个集群将无法利用,直到NameNode被...原创 2018-10-23 09:34:18 · 840 阅读 · 0 评论 -
Hadoop HDFS高可用(HA)
转载自:https://blog.csdn.net/bingduanlbd/article/details/519465402016-07-19 凌晨 初稿在Hadoop 1.x 中,Namenode是集群的单点故障,一旦Namenode出现故障,整个集群将不可用,重启或者开启一个新的Namenode才能够从中恢复。值得一提的是,Secondary Namenode并没有提供故障转移的能力...转载 2018-10-23 14:17:32 · 284 阅读 · 0 评论 -
MapReduce shuffle过程详解
一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成:Map、shuffle、Reduce。Map是映射,负责数据的过滤分法,将原始数据转化为键值对;Reduce是合并,将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果,必须对Map的输出进行一定的排序与...转载 2018-10-30 09:46:24 · 284 阅读 · 0 评论 -
022_Hadoop中的数据类型(Writable、WritableComparable、Comparator、RawComparator…)
1、 在hadoop中所有的key/value都必须实现Writable接口,有两个方法,分别用于读(反序列化)和写(序列化)操作。参考代码: 1 package org.dragon.hadoop.mapreduce.app; 2 3 import java.io.DataInput; 4 import java.io.DataOutput; 5 import ja...转载 2018-10-30 14:08:19 · 222 阅读 · 0 评论 -
Hadoop之HDFS
Hadoop简介http://hadoop.apache.org分布式存储系统HDFS (Hadoop Distributed File System )POSIX• 分布式存储系统• 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务-分布式计算框架MapReduce• 分布式计算框架(计算向数据移动)• 具有 易于编程、高容错性和高扩展性等优点-分布式资源管理框架YARN...原创 2019-03-07 15:16:59 · 170 阅读 · 0 评论 -
Hadoop之mapreduce
JobTracker和TaskTracker一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:概述...原创 2019-03-07 15:22:45 · 2146 阅读 · 0 评论 -
JobTracker和TaskTracker详解
一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。二 JobTracker剖析:(1)概述:JobTracker是一个后台服务进程...转载 2019-03-13 11:07:39 · 22276 阅读 · 2 评论 -
Hadoop集群启动命令及相关介绍
出去就用hive ,hbase 和 spark(最好学号Scala,)nc -lk 9999(1)判断是物理机还是虚拟机dmesg | grep -i virtual查看系统版本号和系统位数cat /etc/issue && arch(2)查看隐藏文件ll -la(3)查看目录下的所有文件及大小ll -h(4)查看该目录下的文件及文件大小du -sh *|so...原创 2019-06-25 10:26:30 · 12844 阅读 · 0 评论