大数据学习之hadoop
记录我的大数据学习之路
上苍保佑吃饱饭的人们
这个作者很懒,什么都没留下…
展开
-
Hadoop性能测试-Benchmarking
2020/11/27 sunhaiqi@bonc.com.cn文章目录Hadoop Benchmarking一、调试集群二、测试组件2.1、TestDFSIO2.1.1、向HDFS上传10个100MB的文件2.1.2、从HDFS读取10个1000MB的文件2.2、nnbench2.2.1、使用12个mapper和6个reducer创建1000个文件2.3、mrbench2.3.1、运行一个小作业50次2.4、Teragen-TeraSort-Teravalidate2.4.1、Teragen生成测试数据2原创 2020-12-08 15:12:18 · 1874 阅读 · 0 评论 -
hadoop3.X版本特性:路由器联邦
2020/11/15 shq000912@163.com文章目录一、路由器联邦(Router-based Federation/RBF)1.1背景1.2代理服务-Router层次设计1.3可用性和容错能力1.4接口1.5配额管理1.6 客户端-路由器配置(详见官网文档)一、路由器联邦(Router-based Federation/RBF)1.1背景在 HDFS 单集群的架构中,随着集群规模的扩大,Block Manager 和Namespace 会消耗掉 NameNode 越来越多的资源,最终原创 2020-11-30 17:27:17 · 2132 阅读 · 0 评论 -
hadoop3.X版本特性:联邦-viewFs
2020/11/10 shq000912@163.com文章目录一、Federation(联邦)1.1背景(HDFS的两个层面)1.2联邦的概念1.3联邦的优点1.4联邦的配置二、ViewFs2.1背景2.2ViewFs配置2.3路径使用的最佳实践为简写路径2.4不同命名空间建的路径重命名2.5常见问题一、Federation(联邦)1.1背景(HDFS的两个层面)命名空间:命名空间:由目录,文件和块组成。它支持所有与名称空间相关的文件系统操作,例如创建,删除,修改和列出文件和目录块存储服原创 2020-11-30 17:26:19 · 588 阅读 · 0 评论 -
大数据学习之hadoop——11MapReduce组成结构_WordCount案例
在MapReduce程序中,WordCount案例的地位就相当于HelloWord在Java程序中的地位,虽然逻辑简单,但是该有的环节都不少。一个标准的MapReduce程序应由以下三部分组成,且通过context对象进行数据传输一. Mapper类(简称map)1、一个标准的map类需要继承org.apache.hadoop.mapreduce.Mapper类,设置四个泛型(keyin ...原创 2020-04-25 02:47:03 · 345 阅读 · 0 评论 -
大数据学习之hadoop——10Windows环境搭建+IDEA_maven配置
1、将hadoop.tar.gz解压解压路径为:E:\study\2020BigData\hadoopHome\hadoop把hadoop-2.6.1bin下的所有文件粘贴至解压目录下的bin下将其中的hadoop.dll文件复制到C://Windows/System32下2、修改配置文件 所有关于路径的配置都要使用 “ / ”core-site.xml<config...原创 2020-04-25 02:45:55 · 487 阅读 · 0 评论 -
大数据学习之hadoop——09一次完整的edits、fsimage、edits_inprogress、chkpoint、NameNode运行原理分析
分析edits、fsimage、edits_inprogress、文件系统元数据维持原理,这一篇文章就够了~本文较长的日志分析,运行分析,请耐心观看,仔细观看每一张图片中的文件后缀名截图较小,请放大网页观看,快捷键ctrl+鼠标滚轮缩放网页大小格式化集群,启动集群此时的文件状态执行了-put和-ls操作后关闭集群此时的文件状态再次开启集群时文件状态现在执行一次滚动操作现在...原创 2020-03-21 00:49:40 · 1440 阅读 · 0 评论 -
大数据学习之hadoop——08NameNode、DataNode工作机制、原理
NameNode原理问题:如何存元数据?、如何保证集群的状态?1、两种文件edits:临时的操作过程数据fsimages:某一时刻的最终完整状态在hdfs文件系统开始服务时,将会读取磁盘上的一些文件、配置等等,在内存(缓存)使用这些数据原因:和磁盘多次交互会导致效率变低,从内存读取则是高效的选择在hdfs第一次启动时,会在name目录下创建edits和fsimage文件,hdfs...原创 2020-03-19 20:10:42 · 391 阅读 · 0 评论 -
大数据学习之hadoop——07阿里云服务器搭建集群以及遇到的问题&解决办法
0 购买完服务器可以自己改好密码1 使用MobaXtem工具连接云服务器时用的是外网ip连接2 修改/etc/hosts文件时应当写内网ip映射关系3 在配置文件中修改时涉及到本机写内网映射4 云服务器的防火墙是not running状态 不需要关闭5 在控制台的网络与安全中添加你可能会开放的端口 50070 9000等等6 在网页访问服务器上的hdfs文件系统时写法应该为...原创 2020-03-17 21:35:20 · 531 阅读 · 0 评论 -
大数据学习之hadoop——06HDFS文件系统读写数据流程
HDFS中的数据写入读出原理1、HDFS写数据流程hadoop fs -put /home/bduser/xxx.txt /animals/tiger/当我们执行上面这条语句时,集群将执行以下几个步骤(以一台NameNode,三台DataNode的完全分布式集群为例)1.1、客户端向NameNode发送请求:上传文件检查该文件是否存在于文件系统,如果存在,则提示该文件已经存在与目标...原创 2020-03-17 21:31:43 · 186 阅读 · 0 评论 -
大数据学习之hadoop——04HDFS文件系统操作指令
占个坑位原创 2020-03-17 21:29:59 · 174 阅读 · 0 评论 -
大数据学习之hadoop——01伪分布式集群搭建
hadoop学习之HDFS文件系统——01-伪分布式集群搭建1.1 HDFS文件系统中的三个角色:NameNode:主节点,存元数据,全局只有一个。DataNode:数据节点,存真实数据,全局可以有无限个。SecondoryNameNode:主节点备份节点,备份元数据,全局只有一个。(以上节点的功能作用会在后续博客中更新 +关注)1.2 伪分布搭建(一台机器充当所有节点)一台全...原创 2020-03-13 23:04:17 · 345 阅读 · 0 评论 -
大数据学习之hadoop——03HDFS文件系统概述
1、概念HDFS是Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。2、优点适合大数据处理:能够处理百万规模以上的文件数量( GB、TB、PB级数据),能够处理10K节点的规模处理非结构化的数据:可处理结构化、半结构化、非结构化的数据(语音、视频、图片),80% 的数据...原创 2020-03-17 18:10:43 · 255 阅读 · 0 评论 -
大数据学习之hadoop——02完全分布式集群搭建
创建节点的两种方式传统使用iso镜像的方式创建多个节点以完整的原型机为基础,做克隆本文使用的方法为第二种:对已经进行伪分布式的机器(node101)进行克隆两次如何进行伪分布式集群搭建:hadoop学习之HDFS文件系统——01伪分布式集群搭建1、创建节点鼠标右键伪分机器->管理->克隆->虚拟机中的当前状态->创建完整克隆->填写虚拟机名称以及选择虚...原创 2020-03-15 00:22:00 · 292 阅读 · 0 评论