HDFS
RivenDong
这个作者很懒,什么都没留下…
展开
-
基于阿里云搭建hadoop平台
文章目录1. 前言2. 添加hadoop用户3. 配置/etc/hosts文件4. 设置ssh免密登录4.1 安装ssh4.2 设置免密5. 安装JDK6. 安装hadoop7. 配置环境变量8. 配置hadoop8.1 hadoop-env.sh8.2 core-site.xml8.3 hdfs-site.xml8.4 mapred-site.xml8.5 yarn-site.xml8.6 Sl...原创 2019-11-21 16:45:50 · 1634 阅读 · 0 评论 -
Sqoop从HDFS中导出数据(七)
文章目录1. 前言2. 配置文件3. 执行Sqoop4. 查看结果1. 前言数据导出操作可以用export命令,在执行数据导出之前,**数据库中必须已经存在要导入的目标表。**在导出的过程中,HDFS或者Hive上的文件会根据用户指定的分隔符被读取解析并写入到MySQL相应的表中。2. 配置文件创建conf4文件:export--connectjdbc:mysql://master0...原创 2019-09-27 11:58:33 · 1212 阅读 · 0 评论 -
Sqoop向HDFS中导入查询结果(六)
文章目录1. 前言2. 配置文件3. 创建相关数据4. 执行Sqoop5. 查看结果1. 前言除了前面介绍的导入数据的方式之外,Sqoop也支持导入SQL查询的结果集。–query参数指定SQL语句–target-dir参数指定目标文件如果想要并行地导入查询结果,每个Map需要执行一个查询副本,查询必须要有一个$CONDITIONS符号,表示每个Sqoop进程被唯一的条件语句替换,...原创 2019-09-27 11:40:57 · 1193 阅读 · 0 评论 -
Sqoop将数据导入到HDFS(三)
文章目录1. 前言2. 打开MySQL服务3. 向HDFS中导入数据4. 成果图1. 前言Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个命令。import命令用来将关系型数据库中的表导入到HDFS或者Hive中,表中的每一行在HDFS中被表示为分开的记录,记录可以被存储为txt文件,或者二进制形式的Avro和Sequen...原创 2019-09-26 22:51:19 · 1644 阅读 · 0 评论 -
HDFS技术之MapFile(十)
文章目录1. MapFile概述2. MapFile写操作2.1 写操作实现步骤2.2 写操作实现代码3. MapFile读操作3.1 读操作实现步骤3.2 读操作实现代码4. 小结1. MapFile概述MapFile是排序后的SequenceFile,由两部分构成,分别是data和index。index作为文件的数据索引,主要记录了每个Record的key值,以及该Record在文件中的...原创 2019-09-10 20:22:10 · 1749 阅读 · 0 评论 -
HDFS技术之SequenceFile(九)
文章目录1. SequenceFile概述2. SequenceFile优缺点介绍2.1 SequenceFile优点2.1.1 支持压缩2.1.2 本地化任务支持2.1.3 难度低2.2 SequenceFile缺点3. SequenceFile写操作3.1 写操作实现步骤3.2 写操作代码实现4.SequenceFile读操作4.1 读操作实现步骤4.2 读操作代码实现5. SequenceF...原创 2019-09-10 19:25:02 · 2703 阅读 · 2 评论 -
HDFS技术之序列化机制(八)
文章目录1.什么是序列化和反序列化2. Hadoop的序列化3. 举个例子3.1 案例分析3.2 代码实现4. 反思1.什么是序列化和反序列化序列化:将对象转化为字节流。以便在网络上传输或者写在磁盘上进行永久存储。反序列化:将字节流转回成对象。序列化在分布式数据处理的两个领域曾经出现:进程间通信、永久存储。Hadoop中多个节点进程间的通信通过远程过程调用(Remote Procedur...原创 2019-09-09 21:17:28 · 1276 阅读 · 0 评论 -
HDFS技术之高可用(七)
文章目录1. 什么是HDFS高可用2. HDFS高可用架构2.1 NameNode(NN)节点2.2 FailoverController(ZKFC)节点2.3 JournalNode(JN)节点2.4 DataNode(DN)节点2.5 ZooKeeper(ZK)3. NameNode的主备切换3.1 三大组件的简要说明3.2 NameNode主备切换流程3.3 三大组件的实现分析3.3.1 H...原创 2019-09-08 23:29:57 · 1257 阅读 · 0 评论 -
HDFS技术之负载均衡(六)
下面我将尽可能的以通俗的语言讲解HDFS的负载均衡技术。HDFS架构天生支持数据均衡策略,举个例子:如果某个DataNode节点上的空闲空间低于特定的临界值,按照负载均衡技术系统将会自动地将数据从这个DataNode移动到其他空闲的DataNode。当对某个文件的请求突然增加,那么也可能启动一个计划创建该文件新的副本,并且同时重新平衡集群中的其他数据。当HDFS负载不均衡时,需要对HD...原创 2019-09-08 16:06:04 · 1303 阅读 · 0 评论 -
HDFS技术之副本机制(五)
文章目录1. 前言2. 副本摆放策略3. 副本系数1. 前言HDFS上的文件对应的Block保存了多个副本,且提供容错机制,副本丢失或者宕机都会自动恢复,默认保存3份副本,下面给出一个副本摆放的架构图。2. 副本摆放策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点。第二副本:放置在与第一副本不同的机架的节点上。第三副本...原创 2019-09-08 10:21:32 · 1197 阅读 · 0 评论 -
HDFS技术的基本概念及体系结构(四)
文章目录1. HDFS简介2. HDFS基本概念2.1 数据块(Block)2.2 元数据节点(NameNode)2.3 数据节点(DataNode)2.4 从元数据节点(Secondary NameNode)3. HDFS体系结构3.1 HDFS架构图3.2 HDFS体系架构概述3.3 架构组件功能3.3.1 文件系统的名字空间(namespace)3.3.2 数据复制3.3.3 元数据块3.3...原创 2019-09-06 16:58:49 · 1292 阅读 · 0 评论 -
HDFS技术之JAVA API操作(三)
文章目录1. 前言2. HDFS中的主要涉及到的类1. 前言在第二篇中,我们讲解了如何从WINDOWS环境下连接到HDFS,那么本节就可以开心的使用JAVA API来访问HDFS了,本篇目标如下:介绍HDFS中的文件操作主要涉及的几个类通过实例介绍如何使用JAVA API进行文件夹和文件的操作。2. HDFS中的主要涉及到的类Configuration类...原创 2019-09-06 14:29:09 · 1131 阅读 · 0 评论 -
HDFS技术之IDEA远程连接(二)
文章目录1. IDEA远程连接1.1 实验需求:1.2 创建项目1.3 配置Modules1. IDEA远程连接1.1 实验需求:IDEAhadoop2.6_Win_x64-master/bin 目录下需要还有对于该文件我已上传到我的CSDN下载页:hadoop-wins1.2 创建项目【file】【new project】【java】【选择自己的JDK】【next...原创 2019-09-06 00:20:01 · 1059 阅读 · 0 评论 -
HDFS技术之常用命令 (一)
文章目录1. 前言1. 前言关于如何写HDFS篇,我想了一晚上,也看过不少关于HDFS的书和文章,大都是从概念到原理,然后到常用命令以及JAVA API操作。但是总感觉概念和原理对于小白来说门槛较高,所以在这里决定先写操作部分后写概念原理部分。...原创 2019-09-05 11:34:53 · 1399 阅读 · 0 评论