大数据
文章平均质量分 85
画图好麻烦~~~
我有一条小鱼干
这个作者很懒,什么都没留下…
展开
-
Hadoop四大组件之——MapReduce
一、概念MapReduce 是一个分布式运算程序的编程框架/编程模型MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。大数据量计算利用了hdfs做了存储,计算任务是不是要分散计算(1)任务的分配(2)监控(3)容错(4)中间结果的汇总二、组件1、分区组件Partitioner自定义一个类,继承Partitioner接口,再根据自身条件进行分区,然后再主函数中进行调用。代码:public class原创 2021-09-29 22:59:07 · 1101 阅读 · 0 评论 -
Hadoop四大组件之——HDFS
一、HDFS设计思路1、把大文件切割成小文件,使用分而治之的思想对同一个文件进行管理(并行)2、每个切分之后的块都进行冗余存储,高可用不丢失注意:HDFS的块的大小可以配置,且有默认值。Hadoop2.x以前:64MHadoop2.x(含)以后:128M理论上,hdfs集群可以无限制的加机器,但是就是加到一定的时候有上限。1、HDFS集群是主从架构就是主节点(namenode)能够管理的从节点的个数有上限。2、能加的机器(从节点)的可靠性有限的。好的成本高成本不高的有可能出现数据丢失原创 2021-09-15 20:24:38 · 1011 阅读 · 0 评论