Hadoop
文章平均质量分 98
叁木-Neil
这个作者很懒,什么都没留下…
展开
-
ReduceTask工作机制
ReduceTask工作机制一、图解二、设置ReduceTask并行度(个数)三、某些需要注意的事项一、图解(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。(2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过...原创 2019-05-20 23:28:24 · 991 阅读 · 0 评论 -
SecondaryNameNode合并Fsimage与Edits的CheckPoint设置
SecondaryNameNode合并Fsimage与Edits的CheckPoint设置在hdfs-default.xml设置在hdfs-default.xml设置时间:<property> <name>dfs.namenode.checkpoint.period</name> <value>3600&原创 2018-12-25 14:03:32 · 1560 阅读 · 0 评论 -
NameNode中的Fsimage和Edits解析
NameNode中的Fsimage和Edits解析图解name图解name原创 2018-12-25 14:02:23 · 3184 阅读 · 0 评论 -
Hadoop序列化
Hadoop序列化1.为什么需要序列化?2.什么是序列化3.为什么hadoop不用java的序列化4.Hadoop序列化特点5.常用的Hadoop数据序列化类型6.自定义bean对象实现序列化接口1.为什么需要序列化?一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的”对象,可以将“活的”...原创 2019-01-04 13:19:21 · 927 阅读 · 0 评论 -
MapReduce练习之WordCount案例实操
MapReduce练习之WordCount案例实操1.需求2.数据准备3.分别编写Mapper、Reducer、Driver3.1编写Mapper3.2 编写Reducer3.3 编写Driver4.测试4.1 在本地情况下4.2 在集群情况下上一篇简单的介绍了MapReduce的思想,优缺点以及编程规范等等。。。所以趁热打铁做一个MapReduce的实操,再深刻体会下!!!1.需求在给定的...原创 2019-01-03 21:20:06 · 695 阅读 · 0 评论 -
HDFS读写文件的具体流程
HDFS读写文件的具体流程1.图解写文件2.流程详解3.图解读文件4.流程详解1.图解写文件2.流程详解1.客户端通过Distributed FileSystem(分布式文件系统)模块向NameNode请求上传文件,NameNode检查文件是否已经存在,父目录是否存在2.NameNode检查完成后,返回是否可以上传结果给客户端3.客户端向NameNode请求上传第一个Block(0~1...原创 2018-12-18 13:29:39 · 1056 阅读 · 0 评论 -
HDFS读写文件中涉及到的几个思想
HDFS读写文件中涉及到的几个思想1.网络拓扑--节点距离计算2.机架感知(副本节点选择)1.网络拓扑–节点距离计算1.节点距离:两个节点到达最近的共同祖先的距离总和。2.图解:2.机架感知(副本节点选择)1.官方说明:http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html...原创 2018-12-18 13:28:54 · 896 阅读 · 0 评论 -
NameNode和SecondaryNameNode工作机制
NameNode和SecondaryNameNode工作机制简单介绍简单介绍总所周知NameNode记录着原创 2018-12-23 09:08:48 · 1729 阅读 · 0 评论 -
集群配置常见错误定位及解决方案
集群配置常见错误及解决方案1.防火墙没关闭、或者没启动YARN2.主机名称配置错误3.IP地址配置错误4.ssh没有配置好5.单点启动集群时,启动集群用户不同6.配置文件缺这缺那7.hadoop未编译源码8.不识别主机名称9.不能开启多个DataNode和NameNode进程![在这里插入图片描述](https://img-blog.csdnimg.cn/2018121118485641.png?...原创 2018-12-11 18:53:33 · 3585 阅读 · 0 评论 -
HDFS2.X特性
HDFS2.X特性1.集群键拷贝1.1 scp实现==两个远程主机==之间的文件复制1.2 采用discp命令实现==两个Hadoop集群之间==的递归数据复制2.Hadoop存档2.1 作用?2.2 简介3.快照管理3.1命令图解3.2举个自嗨的栗子(可以忽略)4.回收站4.1作用4.2图解4.3一个自嗨的栗子1.集群键拷贝1.1 scp实现两个远程主机之间的文件复制1.推pushscp...原创 2018-12-28 13:49:20 · 937 阅读 · 0 评论 -
完全分布式集群的总结
完全分布式集群的总结1.某些问题的说明2.集群启动/停止方式2.1逐个启动/停止2.2整体启动/停止(配置SSH是前提)3.博客提到的配置文件汇总3.1配置在core-site.xml上的有3.2配置在hdfs-site.xml上的有3.3配置在yarn-site.xml上的有3.4配置在mapred-site.xml上的有4.返回目录1.某些问题的说明1.博主相信有很多人初学者(了解一点li...原创 2018-12-11 14:10:37 · 1542 阅读 · 0 评论 -
常用JAVA操作HDFS集群的API开发
常用JAVA操作HDFS集群的API开发1.HDFS文件上传(测试副本数参数优先级)2.HDFS文件下载3.HDFS文件夹删除4.HDFS文件名更改5. HDFS文件详情查看6.HDFS文件和文件夹判断1.HDFS文件上传(测试副本数参数优先级)1.代码: @Test public void testCopyFromLocalFile() throws IllegalArgumentExc...原创 2018-12-17 08:29:53 · 1400 阅读 · 0 评论 -
Hadoop集群时间同步配置
Hadoop集群时间同步配置1.时间服务器配置(必须root用户)1.1检查ntp是否安装1.2修改ntp配置文件1.3修改/etc/sysconfig/ntpd 文件1.4重新启动ntpd1.5 其他机器配置(必须root用户)1.6 编写定时任务1.7 测试1.时间服务器配置(必须root用户)1.1检查ntp是否安装执行命令:rpm -qa|grep ntp1.2修改ntp配置文件...原创 2018-12-10 20:44:41 · 1619 阅读 · 2 评论 -
初始java集群操作遇到的bug2——Eclipse打印不出日志,在控制台上只显示
Eclipse打印不出日志,在控制台上只显示1.运行打印截取(WARN)2.解决这个问题实在太常见,而且网上百度一下很容易解决,所以这里就简单介绍下了!1.运行打印截取(WARN)1.log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell). 2.log4j:WARN Please i...原创 2018-12-16 15:25:18 · 353 阅读 · 0 评论 -
Hadoop序列化的例子
Hadoop序列化的例子1.需求:统计每一个手机号耗费的总上行流量、下行流量、总流量2.数据准备3.图解流程4.代码实现4.1编写Bean对象4.2 编写Mapper4.3 编写Reducer4.4 编写Driver前面讲解了有关序列化方面的东西,为了更好的理解,所以举个栗子。1.需求:统计每一个手机号耗费的总上行流量、下行流量、总流量2.数据准备1 13736230513 192.196...原创 2019-01-05 20:29:57 · 276 阅读 · 0 评论 -
集群安全模式
集群安全模式原创 2019-01-01 19:32:42 · 2398 阅读 · 1 评论 -
ReduceTask阶段
ReduceTask阶段1.图解2.数据输出介绍3.设置ReduceTask并行度(个数)4.注意事项1.图解Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上...原创 2019-04-19 23:12:41 · 671 阅读 · 0 评论 -
Shuffle机制
Shuffle机制1.图解1.图解原创 2019-03-12 13:47:51 · 1579 阅读 · 0 评论 -
设置IP地址
设置IP地址1.确认网络连接模式为NAT模式2.设置网络连接IP1.确认网络连接模式为NAT模式2.设置网络连接IP1.系统=》首选项=》网络连接2.选中Auto eth1 =》点击删除=》点击删除3.选中eth0=》点击编辑4.选中自动连接=》IPv4设置=》方法(下拉栏为手动)=》点击添加=》配置地址、网关、DNS服务器=》点击应用...转载 2019-03-15 17:47:05 · 1266 阅读 · 0 评论 -
第二种切片机制-----combineTextInputFormat切片
combineTextInputFormat切片1.切片机制2.虚拟存储过程3.切片过程4. CombineTextInputFormat案例实操1.切片机制使用场景 CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。2.虚拟存储过程将输入目录下所有文件按照文件名称字典顺序...原创 2019-03-11 08:28:42 · 2620 阅读 · 0 评论 -
第一种切片机制——FileInputFormat
第一种切片机制——FileInputFormat1.切片的机制1.切片的机制简单地按照文件的内容长度进行切片切片大小,默认等于Block大小切片时不考虑数据集整体,而是逐个针对每一个文件单独切片...原创 2019-03-10 00:06:05 · 2569 阅读 · 0 评论 -
MapTask阶段简介
MapTask阶段简介1.简介2.图解MapTask3.流程简介4.溢写阶段详情1.简介MapReduce主要分为MapTask阶段和ReduceTask阶段两个阶段,接下来将主要讲解MapTask阶段所涉及的一些东西2.图解MapTask针对上篇的过程做了一个简单的划分3.流程简介(1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中...原创 2019-01-16 18:55:55 · 2942 阅读 · 0 评论 -
切片与MapTask并行决定机制
切片与MapTask并行决定机制1.为什么会有切片机制?2.机制图解3.概念简介1.为什么会有切片机制?因为大数据的处理都是在分布式集群上进行,而且最初设计的理念就是集群部署在廉价的机器上,所以为了达到最高的效率最快的速度,会把数据分成多个块分别分到不同的集群机器上然后执行相同的操作!这样就可以快速器高效了。由此可见如何切块也是job提交流程中非常重要的一环了,所以后面也会主要去介绍。2.机...原创 2019-01-16 18:57:40 · 1248 阅读 · 0 评论 -
MapReduce之job提交
MapReduce之job提交1.Job提交流程源码简介(重要代码提取)2.图解3.个人总结接下来讲解的是前一篇博客(MapReduce 流程介绍)中的1-3步job的提交!!可以用之前写的wordcount案例来调试1.Job提交流程源码简介(重要代码提取)//自定义代码中的job.waitForCompletion()waitForCompletion()submit();//...原创 2019-01-09 18:28:50 · 1289 阅读 · 0 评论 -
MapReduce 流程介绍
MapReduce 流程介绍1.图解1.图解一个完整的过程,只是分为了两部分而已## 1.1 图解1## 1.2 图解2原创 2019-01-09 13:31:28 · 835 阅读 · 0 评论 -
Hadoop之MapReduce简介
Hadoop之MapReduce简介BBBB时间原创 2019-01-02 18:04:57 · 1837 阅读 · 0 评论 -
NameNode与DataNode的多目录配置
NameNode多目录配置1.为什么要配置NameNode的多目录?2.配置1.为什么要配置NameNode的多目录?NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性2.配置1.在hdfs-site.xml文件中增加如下内容<property> <name>dfs.n原创 2019-01-01 20:33:27 · 3068 阅读 · 0 评论 -
DataNode退役旧节点
DataNode退役旧节点1.添加白名单1.1 什么是白名单1.2 配置2.添加黑名单2.1 什么是黑名单?2.2 添加流程1.添加白名单1.1 什么是白名单添加到白名单的主机,都允许访问NameNode,不在白名单的主机,都会被退出。1.2 配置1.执行命令[lsl@hadoop102 hadoop]$ pwd/opt/module/hadoop-2.7.2/etc/hadoop...原创 2019-01-01 20:07:30 · 1796 阅读 · 0 评论 -
DataNode服务新节点
DataNode服务新节1.环境准备2.服役新节点具体步骤3.如果数据不均衡,可以用命令实现集群的再平衡1.环境准备1.克隆一台hadoop集群的主机2.删除原来HDFS文件系统留存的文件(/opt/module/hadoop-2.7.2/data 和log)在新拷贝的主机上3.source 一下配置文件,使环境变量生效:source /etc/profile4.把一些需要修改的ip,h...原创 2019-01-01 20:05:57 · 1031 阅读 · 0 评论 -
初始java集群操作遇到的bug1——Missing artifact jdk.tools:jdk.tools:jar:1.8
Missing artifact jdk.tools:jdk.tools:jar:1.81.图解错误2.原因3.解决方案4.图解真像在上一篇中遇到的一个bug!!!记录下,一般这个应该遇不到,所以如果没遇到请跳过。1.图解错误1.在pom.xml中2.原因tools.jar包是JDK自带的,pom.xml中以来的包隐式依赖tools.jar包,而tools.jar并未在库中,只需要将t...原创 2018-12-16 15:24:18 · 548 阅读 · 0 评论 -
NameNode故障处理之数据恢复
NameNode故障处理之数据恢复方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录1.原理简介方法一:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录1.原理简介如果你看了上篇,我相信应该已经不需要我来多做介绍了,不过还是简单说下吧,因为SecondaryNameNode负责合并NameNode中的Fsimage和Edit文...原创 2018-12-26 18:15:48 · 1967 阅读 · 0 评论 -
Hadoop源码编译之linux工具安装
Hadoop源码编译之linux工具安装1.JDK解压、配置环境变量 JAVA_HOME和PATH,验证java-version(如下都需要验证是否配置成功)2.Maven解压、配置 MAVEN_HOME和PATH3.ant解压、配置 ANT _HOME和PATH4.安装 glibc-headers 和 g++5.安装make和cmake6.安装libprotoc,进入到解压后protob...原创 2018-12-12 18:14:17 · 258 阅读 · 0 评论 -
关闭Linux防火墙
关闭Linux防火墙查看防火墙状态防火墙未开启防火墙已开启关闭防火墙查看防火墙状态执行命令:service iptables status防火墙未开启防火墙已开启关闭防火墙1.临时关闭防火墙(当重启后防火墙还是会开启):service iptables stop2.开机使设置防火墙关闭查看开机防火墙启动状态:chkconfig iptables –list设置开机时关闭防火...原创 2018-12-05 20:47:35 · 502 阅读 · 0 评论 -
伪分布式的总结与完全分布式的开始
伪分布式的总结与完全分布式的开始1.伪分布式的总结2.完全分布式的开始2.1开始的准备条件:2.2开始的条件1.伪分布式的总结如果你对hadoop目录结构没有很清晰的认识,那么这个伪分布式搭建的过程会让你很难受!如果你对Linux权限的认识不够,那么可能伪分布式还不足以让你非常难受!所以你有以上的感觉那么赶快去补充下自己吧,不然后面的完全分布式可能会让你觉得世界不值得!2.完全分布式的开始...原创 2018-12-08 16:06:57 · 2490 阅读 · 0 评论 -
Hadoop2.x目录结构
Hadoop一些重要的目录结构drwxr-xr-x. 2 lsl lsl 4096 5月 22 2017 bindrwxr-xr-x. 3 lsl lsl 4096 5月 22 2017 etcdrwxr-xr-x. 2 lsl lsl 4096 5月 22 2017 includedrwxr-xr-x. 3 lsl lsl 4096 5月 22 2017 lib...原创 2018-12-08 13:51:42 · 546 阅读 · 0 评论 -
伪分布式问题二(配置日志服务)
伪分布式问题二(配置日志服务)1.引出1.1点击logs无法显示日志信息2.解决2.1配置yarn-site.xml2.2关闭NodeManager 、ResourceManager和HistoryManager2.3启动NodeManager 、ResourceManager和HistoryManager2.4删除HDFS上已经存在的输出文件2.5执行WordCount程序2.6查看日志1.引...原创 2018-12-08 09:05:08 · 951 阅读 · 0 评论 -
伪分布式问题一(配置历史服务器)
伪分布式问题一(配置历史服务器)1.引出2.解决(配置历史服务器)2.1在当前目录下2.2配置mapred-site.xml2.3启动历史服务器2.4查看历史服务器2.5查看JobHistory1.引出点击浏览器上的history无效2.解决(配置历史服务器)2.1在当前目录下2.2配置mapred-site.xml执行命令:vi mapred-site.xml添加如下内容:&...原创 2018-12-08 08:44:16 · 278 阅读 · 0 评论 -
伪分布式的搭建(YARN上运行MapReduce 程序)
伪分布式的搭建(YARN上运行MapReduce 程序)1.启动集群1.1在当前目录下1.2确保NameNode和DataNode已经启动1.3启动ResourceManager1.4启动NodeManager1.5查看启动情况2.集群测试2.1YARN的浏览器页面查看2.2如果文件系统上存在output文件则删除2.3执行MapReduce程序2.4查看运行结果1.启动集群1.1在当前目录下...原创 2018-12-07 20:04:50 · 451 阅读 · 0 评论 -
大数据技术生态体系
大数据技术生态体系图解相关简介一个简单的实例图解图解相关简介1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是Cloudera提供的一个高可用的...原创 2018-12-03 13:23:06 · 4343 阅读 · 3 评论 -
伪分布式的搭建(启动HDFS并运行MapReduce程序)
如果前一章测试成功,那么恭喜你,你已经可以开始新的篇章了(但是如果测试不成功,请务必搭建测试成功后再看此篇章)伪分布式的搭建1、启动HDFS并运行MapReduce程序1.1配置伪分布式集群1.2启动集群1.2.1切换到当前目录1.2.2格式化NameNode1.2.3启动NameNode(执行成功后可执行JPS看是否启动成功)1.2.4启动DataNode1.2.5注意的一些事项1.3查看集群...原创 2018-12-07 18:05:02 · 959 阅读 · 0 评论