![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop基础
文章平均质量分 81
Hadoop相关基础学习
愿你被这个世界温暖相待
这个作者很懒,什么都没留下…
展开
-
Hadoop学习5-4:Hadoop3.x新特性——纠删码(擦除编码)
HDFS为擦除编码(EC)提供了支持,以更有效地存储数据。与默认三个副本机制相比,EC策略可以节省约50%的存储空间 但不可忽略的是编解码的运算会消耗CPU资源。纠删码的编解码性能对其在HDFS中的应用起着至关重要的作用,如果不利用硬件方面的优化就很难得到理想的性能。英特尔的智能存储加速库(ISA-L)提供了对纠删码编解码的优化,极大的提升了其性能 纠删码是hadoop3.x新加入的功能,之前的hdfs都是采用副本方式容错,默认情况下,一个文件有3个副本,可以容忍任意2个副本(datano...原创 2021-12-16 13:04:41 · 3661 阅读 · 0 评论 -
Hadoop学习5-3:HDFS回收站
1 回收站配置2 启回收站功能参数说明3 删除内容查看4 回收站内容恢复5 删除数据不经过回收站6 回收站清空7 客户端操作开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用1 回收站配置在core-site.xml文件中添加如下内容,数字单位为分钟<property> <name>fs.trash.interval</name> <value>1</value></propert.原创 2021-12-10 22:48:37 · 2095 阅读 · 0 评论 -
Hadoop学习5-2:HDFS小文件存档
1 Hadoop 2.x新特性1.1 小文件存档1.1.1 概述HDFS存储小文件弊端每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB解决存储小文件办法之一HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,原创 2021-12-10 22:33:52 · 752 阅读 · 0 评论 -
Hadoop学习12-2:DataNode管理
1 服役新节点场景准备2 退役旧节点2.1 黑名单和白名单2.2 配置白名单和黑名单2.3 黑名单退役2.4 白名单退役3 DataNode多目录存储1 服役新节点随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点场景准备在hadoop104主机上再克隆一台hadoop105主机(这里自行选主机即可),使用VM的话:右键虚拟机>管理>克隆>创建完整克隆修改IP地址(/etc/sysconfig/netw.原创 2021-12-09 22:02:54 · 380 阅读 · 0 评论 -
Hadoop学习12-1:DataNode解析
DataNode作用概述DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。存储实际的数据块执行数据块的读/写操作DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。开启服务器后,在安全模式下,DataNode向NameNode注册NameNode返回注册成功信息DataNode返回块信息,在NameNode中fsimages文件的元数原创 2021-12-09 20:42:53 · 2050 阅读 · 0 评论 -
Hadoop学习11:NameNode和Secondary NameNode的工作机制
1 NN和2NN的作用概述2 基本原理3 NN元数据信息维护到哪里?4 数据同时维护到磁盘和内存带来的问题4.1 如何保证内存和磁盘数据的同步4.2 edits文件中记录的操作越来越多怎么办?5 Secondary NameNode工作过程6 fsimages和edits文件6.1 文件简述6.2 文件查看6.2.1 格式化选项6.2.2 元数据简述6.2.3 edits操作信息7 CheckPoint参数设置8 NameNode故障处理9 集群安全模式9.1 集群安全模式概念9.2 集群安全模式操作10.原创 2021-12-08 21:49:55 · 1771 阅读 · 1 评论 -
Hadoop学习10:数据流(hadoop3.1.3)
1 写数据流程1.1 写数据流程图解2 节点距离计算2.1 实例图2.2 原理与实例3 副本存储节点3.1 集群示例图3.2 实例概述4 读数据流程图解1 写数据流程1.1 写数据流程图解在客户端上通过创建DistributedFileSystem对象进行操作数据 uri = URI.create("hdfs://192.168.153.131:8020"); conf = new Configuration(); user = "cxj";// fs为DistributedFileS.原创 2021-12-07 22:20:17 · 786 阅读 · 0 评论 -
Hadoop学习9:Maven项目跟中进行HDFS客户端测试(hadoop3.1.2)
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <dependency&...原创 2021-12-06 21:27:26 · 1108 阅读 · 2 评论 -
Hadoop学习8:HDFS客户端环境准备(hadoop3.1.3)
1 说明需要在windows 10中使用HDFS,因而需要在Windows 10中配置hadoop相关的环境2 hadopp3.1.3下载hadoop3.1.3下载直接下载tar.gz文件解压即可,在Linux平台上也是用这个,但是Hadoop是基于Java的,基于JVM进行跨平台,所以有都是可以用的3 环境变量配置配置HADOOP_HOME变量在PATH添加如下项使用hadoop version验证可能会出现以下问题:具体参考这里:Hadoop学习问题4:Windows10配原创 2021-12-05 22:18:18 · 793 阅读 · 0 评论 -
Hadoop学习7:命令行操作
基本语法#第一种形式# hadoop fs -l hadoop fs 具体命令#第二种形式hdfs dfs 具体命令二者是一样的,二者缺省具体的命令可以查看可使用的命令列表常用命令列表-ls 显示目录信息#显示根目录的结构hadoop fs -ls /-mkdir 创建目录#需要保证上层目录的存在hadoop fs -mkdir /input#递归创建目录,上层目录可以不存在hadoop fs -mkdir -p /input-moveFromLocal 从本地原创 2021-12-05 16:19:17 · 1294 阅读 · 0 评论 -
Hadoop学习6:HDFS基本概念
1 HDFS产出背景及定义1.1 产出背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统HDFS只是分布式文件管理系统中的一种1.2 定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色1.3 适用场景H原创 2021-12-05 13:08:34 · 132 阅读 · 0 评论 -
Hadoop学习5-1:Hadoop 3.x和Hadoop 2.x的主要区别
Hdfs基本概念Hdfs基本概念原创 2021-12-04 22:14:56 · 882 阅读 · 0 评论 -
Hadoop学习4:集群配置与测试
集群规划虚拟机规划扩展Hadoop配置文件说明集群配置hadoop_env.sh配置核心文件配置core-site.xml配置一般配置项兼容配置项hdfs-site.xml配置一般配置兼容配置yarn-site.xml配置mapred-site.xml集群测试集群单点启动重复格式化的问题集群规划虚拟机规划扩展Hadoop的体系结构SecondaryNamenode的作用详解Hadoop配置文件说明详解Hadoop六个配置文件的作用集群配置hadoop_env.sh配置JAVA_.原创 2021-12-02 12:51:14 · 569 阅读 · 0 评论 -
Hadoop学习3:Hadoop3.1.3本地模式测试以及完全分布模式测试
1 本地模式1 本地模式在对应的hadoop家目录下执行以下命令cd /opt/module/hadoop 3.1.3# 在hadoop-3.1.3文件下面创建一个input文件夹mkdir input# 将Hadoop的xml配置文件复制到inputcp etc/hadoop/*.xml input#执行share目录下的MapReduce程序,这里需要在hadoop的家目录下执行,如上图那样bin/hadoop jar share/hadoop/mapreduce/hadoop.原创 2021-11-29 21:00:26 · 882 阅读 · 0 评论 -
Hadoop学习2:Hadoop环境配置:JDK 1.8和Hadoop配置
1 JDK 1.8安装1.1 yum便捷安装1.2 yum方式安装寻找对应的安装目录1.3 手动添加Java_Home2 Hadoop 3.1.3 安装2.1 下载地址2.2 环境变量配置验证1 JDK 1.8安装1.1 yum便捷安装yum list installed | grep java 查看系统是否安装过javayum -y remove java-1.8.0-openjdk* 卸载javayum install java-1.8.0-openjdk* 下载.原创 2021-11-29 20:16:08 · 2243 阅读 · 0 评论 -
Hadoop学习1:hadoop模板机准备:非桌面版Centos7下载安装配置以及问题总结
1. 安装通过VMware安装Linux(CentOS,没有桌面)2. ping不通问题2.1 问题描述:Linux报错之ping: www.baidu.com: Name or service not known通过ip addr查看网络配置,上下二图对比可以看出没有具体的ip2.2 解决:配置网卡信息vi /etc/sysconfig/network-scripts/ifcfg-你的网卡名具体就是vi /etc/sysconfig/network-scripts/ifcfg-e原创 2021-11-28 20:04:54 · 887 阅读 · 0 评论