Hadoop
文章平均质量分 73
搁浅记忆
当你的才华还撑不起你的野心的时候,你就应该静下心来学习;当你的能力还驾驭不了你的目标时,就应该沉下心来,历练。每一个不曾起舞的日子 都是对未来的一种辜负!
展开
-
HDFS文件读写过程详解
1,hdfs文件写入过程 Client 发起文件上传请求, 通过 RPC 与 NameNode 建立通讯, NameNode 检查目标文件是否已存在, 父目录是否存在,是否具备上传权限, 返回是否可以上传 client会根据上传文件大小将该文件划分成多个block块,例如300M,则会划分为128M,128M,128M Client 请求NameNode第一个 block 该传输到哪些 DataNode 服务器上 NameNode 根据配置文件中指定的.原创 2022-03-02 11:07:54 · 2179 阅读 · 0 评论 -
HDFS命令行使用
一,hdfs常见命令:ls格式:hdfs dfs -ls URI作用:类似于Linux的ls命令,显示文件列表hdfs dfs -ls /lsr格式 : hdfs dfs -lsr URI作用 : 在整个目录下递归执行ls, 与UNIX中的ls-R类似hdfs dfs -lsr /mkdir格式 : hdfs dfs [-p] -mkdir <paths>作用 : 以<paths>...原创 2022-03-02 10:02:49 · 1047 阅读 · 0 评论 -
Hadoop安装与部署(非高可用)
集群规划一:上传apache hadoop包并解压cd /export/softwarestar -zxvf hadoop-2.7.5.tar.gz -C ../servers/二:修改配置文件1) 修改core-site.xmlnode01执行以下命令cd /export/servers/hadoop-2.7.5/etc/hadoopvim core-site.xml<configuration> &l...原创 2022-02-25 15:38:33 · 225 阅读 · 0 评论 -
Hadoop拉泽罗压缩配置及创建索引
1.hadoop文件支持LZO压缩配置1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/[atguigu@hadoop102 common]$ pwd/opt/module/hadoop-3.1.3/share/hadoop/common[原创 2021-01-13 10:57:17 · 367 阅读 · 0 评论 -
6,Hadoop HA配置
HA配置:配置NameNode逻辑到物理的映射关系 配置JN结点的通信方式 Ssh手动HA基本上配置完了部署 手动HA 必须先启动journalNode,此时集群还没有格式化,没格式化之前不能用start-dfs.sh来启动所有角色,会报错。必须格式化完成后才能使用启动脚本。但是在HA中格式化之前要先启动journalNode,因为在格式化的时候最重要是生成一个集群的ID(Clu...原创 2018-10-17 15:03:59 · 545 阅读 · 2 评论 -
5,Hadoop2.0 HA
Hadoop2.0产生的原因HDFS存在的两个问题:1,NameNode单点故障,难以应用于在线场景2,NameNode压力过大,且内存受限,影响扩展性。 Hadoop 2.0产生背景Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题HDFS存在的问题NameNode单点故障,难以应用于在线场景 HANameNode压力过大...原创 2018-10-17 14:42:56 · 378 阅读 · 0 评论 -
3,Hadoop中常用概念的深入理解
HDFS中角色:NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。DataNode:Slave节点,奴隶,干活的。负责存储client发来的数...原创 2018-09-26 10:32:56 · 834 阅读 · 0 评论 -
7.MapReduce
一 MapReduce 入门1.1 MapReduce 定义Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析应用”的核心框架。Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 hadoop 集群上。1.2 MapReduce 优缺点1.2.1 优点1 )MapRed...原创 2018-09-20 15:17:50 · 698 阅读 · 0 评论 -
通过IO流操作HDFS
package com.atguigu.hdfs;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;...原创 2018-09-13 15:26:59 · 993 阅读 · 1 评论 -
客户端操作HDFS文件系统(文件上传下载)
package com.atguigu.hdfs;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;i...原创 2018-09-13 15:24:32 · 1260 阅读 · 0 评论 -
4,配置hadoop服务器集群
准备将hadoop103,hadoop104,hadoop105这三台服务器配置成集群,现在先将hadoop102配置好然后将内容同步到这三台服务器上环境准备1,编辑hadoop-env.sh 配置JDK2,编辑core-site.xml 配置NameNode的地址和hadoop运行时产生文件的存储目录<!--配置HDFS的NameNode-->...原创 2018-09-12 10:35:19 · 770 阅读 · 0 评论 -
3,VMware 克隆多台Linux机器并修改IP等配置
克隆完服务器后修改配置:1,修改网卡配置 vi /etc/udev/rules.d/70-persistent-net.rules 删除掉第一个网卡配置,将第二个网卡名称修改成eth0 记录下mac地址修改hwaddr的值2,修改mac地址vi /etc/sysconfig/network-scripts/ifcfg-eth03,...原创 2018-09-12 10:05:26 · 836 阅读 · 0 评论 -
1,Hadoop环境搭建之--伪分布模式
本地模式 : 1台主机 不具备HDFS,只能测试MapReduce程序 伪分布模式: 1台主机 具备Hadoop的所有功能,在单机上模拟一个分布式的环境 (1)HDFS:主:NameNode,数据节点:DataNode ...原创 2018-07-14 17:26:27 · 973 阅读 · 0 评论 -
2,Hadoop环境搭建之本地模式
二次JDK配置的原因:Ssh命令远程调用其它结点的时候,不会加载/etc/profile文件。我们一般部署JDK的时候将JAVA_HOME写在profile文件中,hadoop需要jdk,远程脚本启动其它结点的时候会失败。需要在hadoop中再做二次jdk配置。(就是因为远程调用对方的时候不会加载对方的etc/profile文件导致拿不到JAVA_HOME)集群配置步骤分析:分三步1,...原创 2018-07-14 15:38:22 · 661 阅读 · 1 评论