hadoop
朱同学
这个作者很懒,什么都没留下…
展开
-
[大数据]大数据体系整理
大数据体系整理 开发语言 分布式存储 分布式计算 数据仓库技术 机器学习开发语言Java 大数据框架的编写支持很多开发语言,但是Java在大数据开发方面有很大的优势,目前流行的大数据Hadoop框架、map-reduce框架,很多部分都是用开源的Java语言编写,因此Java在大数据方面有很大优势!Python Python的优势在于资源丰富,拥有坚实的数值算法、图标和数...原创 2019-07-09 13:24:26 · 1977 阅读 · 0 评论 -
[idea]基于idea的hadoop插件-HadoopIntellijPlugin
基于idea的hadoop插件-HadoopIntellijPlugin 作用 准备HadoopIntellijPlugin 安装HadoopIntellijPlugin 使用HadoopIntellijPlugin作用可视化操作hdfs文件系统.准备HadoopIntellijPlugin可以在github上下载源码再编译Github地址: https://github....原创 2019-07-18 10:25:22 · 10017 阅读 · 14 评论 -
[hadoop] hadoop-ha中由谁来合并fsimage和edits
大家都知道,在hadoop1.x中由SecondaryName负责fsimage和edits文件的合并,但是由于SecondaryName不支持namenode的热备份,会造成hdfs的单点故障问题,在hadoop2.x中已被弃用.那么在hadoop2.x中的hadoop-ha由谁来合并fsimage和edits呢?答案是StandybyNameNode.1 首先edits文件会同步到Jou...原创 2019-11-14 08:19:07 · 847 阅读 · 0 评论 -
[hadoop] hdfs的并发写问题
总所周知,hadoop的hdfs组件有一个缺点就是不支持并发写入,不支持文件随即修改.但是很多人不太了解并发写入是指什么.有以下两种情况两个客户端同时向hdfs上传不同名文件:全都上传成功.两个客户端同时向hdfs上传同名文件:两个文件全部上传失败.因此hdfs不能并发写指的是不能同时上传同位置同名文件.额外一种情况两个同名文件,一个文件成功上传,再用另一个客户端上传同名文...原创 2019-11-13 20:59:15 · 4909 阅读 · 0 评论 -
[hadoop] hdfs的block块大小为什么是128MB
block块大小的设置:HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,老版本中是64M。为什么是128MB:块的大小与磁盘传输速率有关.一般hdfs的寻址时间为10ms左右.当寻址时间为传输时间的1%时为最佳状态,因此传输时间大概在1s左右.机械硬盘文件顺序读写的速度为10...原创 2019-11-13 20:20:12 · 2716 阅读 · 0 评论 -
[hadoop] 重新格式化HDFS的详细步骤
使用ZKFC组件的情况下1 删除两个目录core-site.xml配置文件中指定的目录(默认位置在/mnt目录下)<property> <name>dfs.name.dir</name> <value>/home/hadoop/hdfs/name</value> <description>name...原创 2019-10-08 19:30:25 · 2869 阅读 · 0 评论 -
[Hadoop]hadoop-yarn环境搭建(基于hadoop-2.6.5)
hadoop-yarn环境搭建 环境背景 1 修改hosts文件 2 免密钥登录 3 安装zookeeper 4 安装hadoop 5 第一次启动 6 之后的启动和关闭环境背景请先完成hdfs-ha高可用完全分布式环境的搭建.(上面友情链接中有教程)hadoop-2.6.5资源链接:链接:https://pan.baidu.com/s/1NHTCtqHbsuKztp...原创 2019-07-25 19:22:16 · 545 阅读 · 0 评论 -
[hadoop]HDFS完全分布式搭建(基于hadoop-2.6.5的单NameNode形式)
HDFS完全分布式搭建 环境背景 1 修改hosts文件 2 免密钥登录 3 安装hadoop环境背景完全分布式即NameNode和DataNode等部署在不同的节点上各虚拟机的系统时间需要同步, 各节点预先安装好jdk1.7 因为多节点有相同操作,使用xshell的同步命令能简化步骤使用的各节点虚拟机操作系统为CentOS_6.5共四个节点node01,node02,no...原创 2019-07-24 20:46:32 · 219 阅读 · 0 评论 -
[Hadoop]HDFS伪分布式搭建(基于hadoop-2.6.5的单NameNode形式)
HDFS伪分布式搭建 环境背景 1 修改hosts文件 2 免密钥登录 3 安装hadoop 标题 标题 标题环境背景伪分布式即NameNode和DataNode等都在一台机器上使用的单节点虚拟机操作系统为CentOS_6.5预先安装好jdk1.7Hostname为node01Ip为192.168.110.101登录用户为root用户1 修改hosts文件vi...原创 2019-07-24 20:23:20 · 210 阅读 · 0 评论 -
[hadoop] HDFS的新节点上线和旧节点退役
新节点上线1 准备一个全新的节点,使用root账户登录2 修改ip和host主机名3 在管理节点端配置SSH免密码登录4 关闭防火墙5 安装JDK,解压hadoop安装包并配置相关环境变量6 将以前节点的hadoop配置文件同步到新节点7 直接启动新节点的DataNode即可关联到集群sbin/hadoop-daemon.sh start datanodesbin/yarn-da...原创 2019-09-26 10:10:59 · 369 阅读 · 1 评论 -
[hadoop] DataNode的工作流程和工作机制
工作流程1 DataNode启动后先向NameNode注册2 注册成功后NameNode响应注册成功3 DataNode每周期(1小时)上报所有块信息4 DataNode每三秒与NameNode做一次心跳连接,心跳返回结果带有NameNode给该DataNode的命令工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块...原创 2019-09-26 09:30:06 · 454 阅读 · 0 评论 -
[hadoop] yarn的组成架构及其各角色的作用
yarn工作机制详细步骤及流程图:https://blog.csdn.net/a755199443/article/details/101381503yarn是hadoop2.0后推出的资源调度框架,它由以下部分组成:1)ResourceManager(RM)(1)处理客户端请求(2)监控NodeManager(3)启动或监控ApplicationMaster(4)资源的分配与调度...原创 2019-09-25 19:54:28 · 2185 阅读 · 0 评论 -
[hadoop] yarn工作机制详细步骤及流程图
详细步骤(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕后,申请运行mrAppMaster。(6)RM将用户的请求初始化成一个Task。(7)其中一个NodeManager领取到T...原创 2019-09-25 19:53:33 · 2317 阅读 · 0 评论 -
[hadoop] HDFS的读写详细流程
HDFS的写入过程1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。如果可以上传,客户端给上传文件做逻辑分块。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端请求dn1上传数据,dn1收到请求...原创 2019-09-25 17:32:21 · 151 阅读 · 0 评论 -
[hadoop] HDFS默认的副本存放策略
默认的副本数量为3个第一份:如果是单节点提交则存放在提交节点的客户端节点上,如果是集群提交则存放到提交集群中任一节点第二份:存放到第一份副本所在的机架上的另外一个不同的节点上第三份:存放到第一份所在的机架外的另外一个不同的节点上更多的副本:随机选择与第一份副本所在节点同一数据中心上的任一节点进行存储原文For the common case, when the replication...原创 2019-09-25 17:16:21 · 2395 阅读 · 0 评论 -
[hadoop] HDFS组成架构及其作用
1)NameNode:就是Master,它是一个主管,管理者1 管理HDFS的目录结构;2 配置副本策略3 管理数据块(Block)映射信息4 处理客户端读写请求2)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作1 存储实际的数据块2 执行数据块的读/写操作.3)Client:就是客户端1 文件切分.文件上传HDFS的时候,Client...原创 2019-09-25 16:51:05 · 3456 阅读 · 0 评论 -
[hadoop] hadoop的优缺点总结
hadoop有以下四个优点:1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2)高扩展性:能在廉价机器组成的集群间分配任务数据,可方便的扩展数以干计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性:能够自动将失败的任务重新分配。同时hadoop 1.x有以下三...原创 2019-09-25 16:44:47 · 6719 阅读 · 0 评论