HDFS
文章平均质量分 61
longG_It
这个作者很懒,什么都没留下…
展开
-
Hadoop之MapReduce框架的处理过程以及实现集群运行的三种方式
1.在没有使用MapReduce框架之前,想要在集群上分布式运行Key-Value等任务的时候,代码特别冗余,会进行不断地连接、在HDFS上读取数据,特别不方便,所以MapReduce框架就将这些准备工作替我们做了2.结合经典的词频统计代码说一下自己理解的Map(看详细注释) Map就是由框架读出来数据,根据你自己的需求去处理数据,不用管有几个虚拟机给你运行等一系列不必要的代码,只需...原创 2018-08-22 19:33:00 · 900 阅读 · 0 评论 -
HDFS文件的上传和读取原理以及元数据的管理机制
1.文件的上传 (1) 客户端请求上传文件,集群告知可以上传了 (2) 客户端请求上传第一块数据,集群告知端口、主机名 (3)客户端请求连接,集群告知链接成功 (4)客户端开始传输文件 (5)传输第二块的时候重复2-4的这个过程 (6)客户端传输完成后,进行反馈 2.文件的读取 (1)客户端请求读取文件,集群返回元数据信息(包括存储在哪个块这些) (2...原创 2018-08-20 10:02:10 · 2108 阅读 · 2 评论 -
Hadoop集群搭建详解以及安装包下载
1.创建一台虚拟机,并且克隆两台,并且配置好/etc/hosts文件的ip映射,克隆在我前面的博客里面有详细步骤。 如果搭建过程不成功有可能是防火墙的问题,关闭防火墙,重启就OK //chkconfig iptables off 2.将集群通信搭好,前面的文章里面也有,现在有一个简单的方法 (1)安装ssh客户端 (2)到这个里面有个安装脚本,运行一下就...原创 2018-08-17 17:32:41 · 720 阅读 · 0 评论 -
HDFS高可用(HA)机制
定义: 解决系统单点故障问题,防止一台nameNode挂了,就会出现数据丢失等问题。 原理: (1)将数据记载在Qjournal分布式日志管理系统里面,活跃的nameNode会定时将数据上传到Qjournal里面,Qjournal也会定期将数据放到另一台不活跃的NameNode里面跟新,定期进行数据的刷新这样就会防止丢失(也是定期刷新fsimage镜像文件)...原创 2018-09-16 21:57:39 · 672 阅读 · 0 评论