hadoop
文章平均质量分 81
lspshun
这个作者很懒,什么都没留下…
展开
-
Mapreduce Shuffle运行机制
概念:mapreduce中 map阶段处理的数据传递给reduce阶段是mp框架中最关键的一个流程 叫做shuffleshuffle :洗牌 核心机制 :数据分区 排序 缓存其实就是将maptask 输出的处理的结果数据分发给reducetask 分发的过程中进行了分区排序shuffle 是MR处理中额一个流程 每一个处理步骤是分散在各个maptask 和reducetask上...原创 2018-08-31 20:38:26 · 467 阅读 · 0 评论 -
hadoop 开发基础
目录rz的使用查看有谁在线vi 快捷键文件权限的操作配置免密码登陆后台服务管理iptable 防火墙linux 中的软件安装本地yum安装仓库配置rz的使用文件上传到linux 是上传到当前目录所在的文件夹yum list|grep lrzszsudo yum -y install lrzsz.x86_64命令:(参数 -y 如果linux上...原创 2018-09-07 10:58:26 · 588 阅读 · 0 评论 -
HDFS 总结
目录课程大纲(HDFS详解) 21. HDFS前言 32. HDFS的概念和特性 33. HDFS的shell(命令行客户端)操作 43.1 HDFS命令行客户端使用 43.2命令行客户端支持的命令参数 43.2 常用命令参数介绍 54. hdfs的工作机制 84.1 概述: 84.2 HDFS写数据流程 94.2.1 概述 94.2.2 详细步骤图...原创 2018-09-08 17:29:02 · 1551 阅读 · 1 评论 -
Hadoop 入门总结
目录大纲(HADOOP) 21. HADOOP 快速入门 3什么是HADOOP 3HADOOP产生背景 3HADOOP在大数据、云计算中的位置和关系 3国内外HADOOP应用案例介绍 4国内HADOOP的就业情况分析 5HADOOP生态圈以及各组成部分的简介 6分布式系统概述 62. HIVE快速入门 72.1 Hive基本介绍 72.2 Hive的...原创 2018-09-08 17:20:38 · 5242 阅读 · 0 评论 -
Hadoop datanode正常启动,但是Live nodes中却缺少节点的问题
打开配置文件hdfs-site.xml找到dfs.datanode.name.dir这个属性,或者dfs.data.dir具体看你用哪个设置的数据存储路径。 分别在master, node1, node2中更改此属性 #master中的值 <property> <name>dfs.datanode.data.dir</name> <value...原创 2018-09-05 17:02:09 · 1377 阅读 · 0 评论 -
什么是RPC?轻量级RPC框架开发
1 PRC原理RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客...原创 2018-09-08 17:06:36 · 677 阅读 · 0 评论 -
Hadoop NameNode 高可用 (High Availability) 实现
在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameNode 的共享存储实现分析在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和...原创 2018-08-30 15:39:29 · 3678 阅读 · 0 评论 -
hadoop中,一个datanode可以放多个相同的block吗
一般出于安全性和高可用性考虑,并不会把一个block的多个副本放在同一个datanode上。但是也不是绝对,例如三个datanode,副本默认是三个的话,那么正常来说,每个节点上存储一个block副本是最好的(安全、可靠性高,单节点出现问题,并不会丢失数据),如果把3个副本都放在一个节点上,一旦这个节点出现问题,数据就可能丢失了;如果副本数是5个的话,那么就存在同一个datanode有多个副本了,...原创 2018-08-30 10:02:25 · 2501 阅读 · 0 评论 -
Hadoop Ha 高可用集群搭建
0 .前期准备 集群规划1.修改Linux主机名 hostname xxx2.修改IP 3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙 service iptables st...原创 2018-09-04 11:35:01 · 159 阅读 · 0 评论 -
hadoop 伪分布式搭建 centos6.5
HDFS 一次写入多次读取 不能修改 先删除 再上传 Hadoop 伪分布式搭建在单台机器上用Java进程模拟出的多台服务器方法 适合用于学习步骤创建hadoop用户 给定权限 sudo vi /etc/sudoers root hadoop ALL=(ALL) ALL 修改主机名称 配置相应的IP映射 hostname hh vi /etc/h...原创 2018-08-29 20:44:23 · 237 阅读 · 0 评论 -
hadoop NameNode和DataNode运行机制
1)第一阶段:namenode启动(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改查的请求(3)namenode记录操作日志,更新滚动日志。(4)namenode在内存中对数据进行增删改查2)第二阶段:Secondary NameNode工作 (1)...原创 2018-08-31 22:18:37 · 1753 阅读 · 0 评论 -
hadoop hdfs 读写流程
概述开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现。特点如下:能够运行在廉价机器上,硬件出错常态,需要具备高容错性 流式数据访问,而不是随机读写 面向大规模数据集,能够进行批处理、能够横向扩展 简单一致性模型,假定文件是一次写入、多次读取缺点:不支持低延迟数据访问 不适合大量小文件存储(因为每条元数据占...原创 2018-08-31 21:55:39 · 14028 阅读 · 4 评论 -
zookeeper
目录 1 zokeeper 概念2 zookeeper 集群机制3 安装部署4 zookeeper 机构和命令5 zookeeper的监听工作机制6 实现分布式应用的(主节点HA)及客户端动态更新主节点状态7 zookeeper 原理 选举机制9 zookeeper动态感知节点示意图10 服务器动态上下线程序的工作机制11 集群部署服务器情况...原创 2018-09-07 11:32:14 · 264 阅读 · 0 评论