![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 79
s_pr1te
这个作者很懒,什么都没留下…
展开
-
Hadoop伪分布式搭建步骤
1、搭建虚拟机1台2、网络配置好,关闭iptables防火墙,关闭selinux3、jdk1.7.0_80hadoop-2.6.5.tar.gz上传这两个包4、安装jdkrpm -ivh jdk-7u80-linux-x64.rpm5、编辑vi /etc/profile添加两行记录:export JAVA_HOME=/usr/java/jdk1.7.0_80export PAT...原创 2019-04-07 13:03:13 · 313 阅读 · 0 评论 -
HA集群搭建
搭建HA集群:1、zookeeper集群搭建a) 将zookeeper.tar.gz上传到node2、node3、node4b) 解压到/opttar -zxf zookeeper-3.4.6.tar.gz -C /optc) 配置环境变量:export ZOOKEEPER_PREFIX=/opt/zookeeper-3.4.6export PATH=$ PATH:$ ZOOKEEP...原创 2019-04-09 20:25:56 · 199 阅读 · 0 评论 -
hadoop 3.X新特性
总结一下hadoop3版本的新特性,方便以后工作时学习应用.1.java版本更新将默认的最低jdk从7升到了82.纠删码可以将3倍副本占据的空间压缩到1.5倍,并且依旧保持3倍的容错.但是在读取数据的时候需要进行额外的计算,因此适用于储存不频繁使用的数据.3.YARN中的资源类型通过扩展YARN的资源类型,支持cpu和内存之外的其它资源,如GPU,FPGA,软件许可证,本地存储等.4...原创 2019-04-08 20:08:24 · 273 阅读 · 0 评论 -
Hadoop完全分布式搭建
1、node1,2,3,4做免密钥登录2、安装和配置jdk3、解压hadoop-2.6.5.tar.gz到/opt目录4、在hadoop-env.sh中第25行配置export JAVA_HOME=/usr/java/jdk1.7.0_675、slaves,三个datanode所在的位置主机名称:node2node3node46、core-site.xml< config...原创 2019-04-08 19:17:28 · 127 阅读 · 0 评论 -
Hadoop中关于datenode无法启动的解决办法
今天自己闲来无事想搭建个Hadoop来玩玩,结果搭建完成后怎么都启动不了datanode.查看了一下VERSION中的clusterID,发现namenode的和datanode的clusterID不同.想来是因为自己多次执行了hdfs namenode -format语句,而每次执行这条语句namenode就会生成一条新的clusterID,但是datanode并不会重新生成,而是保持原来的不变...原创 2019-04-08 19:06:39 · 1428 阅读 · 1 评论 -
java操作HDFS代码实现
自己做的一些小训练0.0public class HDFSDemo { private Configuration conf; private FileSystem fs; @Before public void before() throws Exception { //初始化,加载hadoop默认的配置文件,如果有指定的位置,则覆盖默认的配置 conf=new Con...原创 2019-04-11 21:12:28 · 387 阅读 · 0 评论 -
HDFS数据存储模式
Hadoop中HDFS的存储机制HDFS(Hadoop Distributed File System)是Hadoop分布式计算中的数据存储系统,是基于流数据模式访问和处理超大文件的需求而开发的。下面我们首先介绍HDFS中的一些基础概念,然后介绍HDFS中读写操作的过程,最后分析了HDFS的优缺点。1. HDFS中的基础概念Block:HDFS中的存储单元是每个数据块block,HDFS默认...转载 2019-04-08 16:23:40 · 7509 阅读 · 0 评论 -
浅谈MapReduce作业提交流程
YARN:解耦资源与计算ResourceManager主,核心集群节点资源管理NodeManager与RM汇报资源管理Container生命周期计算框架中的角色都以Container表示Container:【节点NM,CPU,MEM,I/O大小,启动命令】默认NodeManager启动线程监控Container大小,超出申请资源额度,kill支持Linux内核的CgroupM...原创 2019-04-11 13:00:57 · 272 阅读 · 0 评论 -
谈一下有关MapReduce的工作流程
废话少说,先来张图看看:Map:1、根据业务需求处理数据并映射为KV模型2、并行分布式3、计算向数据移动Reduce:1、数据全量/分量加工2、Reducer中可以包含不同的key3、相同分区的Key汇聚到一个Reducer中4、 ”相同”的Key调用一次reduce方法5、排序和比较实现key的汇聚K,V使用自定义数据类型:1、节省开发成本,提高程序自由度2、框架会对键...原创 2019-04-11 12:53:56 · 214 阅读 · 0 评论 -
hadoop案例java代码实现
今天手写一个hadoop的案例:需求:找出每个月气温最高的2天思路:记录特点每年每个月最高2天1天多条记录?进一步思考年月分组温度升序key中要包含时间和温度!MR原语:相同的key分到一组通过GroupCompartor设置分组规则自定义数据类型Weather包含时间包含温度自定义排序比较规则自定义分组比较年月相同被视为相同的key那么reduce迭代...原创 2019-04-14 21:33:56 · 2477 阅读 · 0 评论