Hadoop
人生路且修且行
大数据开发,一起探讨一起进步吧
展开
-
Hadoop详解与HDFS读写流程
大数据第7天Hadoophadoop:包含分布式文件系统和分布式计算的一个框架。 HDFS,mapreducehadoop项目模块包括4部分:Hadoop Common --工具类Hadoop Distributed System(HDFS) --分布式文件系统Hadoop YARN --分布式资源管理Hadoop MapReduce --分布式计算框架Hadoop-HDFS...原创 2019-06-11 20:46:32 · 364 阅读 · 0 评论 -
Hadoop_HA与联邦机制
大数据第8天HDFS存在的问题 •NameNode单点故障,难以应用于在线场景 HA •NameNode压力过大,且内存受限,影扩展性 F解决单点故障 •HDFS HA:通过主备NameNode解决 •如果主NameNode发生故障,则切换到备NameNode上MapReduce存在的问题响系统 •JobTracker访问压力大,影响系统扩展性 •难以支持除...原创 2019-06-13 08:51:25 · 343 阅读 · 0 评论 -
MR要点汇总、Yarn
大数据第9天MapReduce随心记: 1.默认切片=块 所以默认map就处理一个块 2.切片大小可以人为调节,故一个切片可以对应一个或者多个map,也可以一个切片对应多个块(当要求切片数据>128M时) 3.切片是逻辑的,属于计算层 4.map数量由切片决定 reduce数量由人决定,所以map和reduce可以是任何对应关系 5.reduce最优化案例分析 ...原创 2019-06-13 21:43:05 · 196 阅读 · 0 评论 -
初识MR_Run编写
大数据第10天初次使用eclipse编写hdfs集群计算心得计算数据文件需要自写3大块:Mapper,Recucer,RunJobMapper:获取数据的对键值并对键值对类型规划,并得到输出的键值对 自定义的Mapper类继承Mapper<xx1,xx2,xx3,xx4> xx1,xx2代表输入数据键值对的类型 xx3,xx4代表输出时键值对的类型 写调用并map方...原创 2019-06-15 08:01:21 · 191 阅读 · 0 评论 -
Map-input源码分析
大数据第11天MapTask-input源码分析MapTask *run *sout --排序 runNewMapper (input) *输入格式化类inputFormat 是反射出来的(自写的Map名称) *切片 将原有的序列化的切片信息转化成对象 *准备输入-- input-- new NewTrackingRecordReade...原创 2019-06-18 21:25:20 · 313 阅读 · 0 评论 -
MR客户端Client源码分析
大数据第12天客户端Client源码分析客户端提供的资源:jar包 split清单 配置生成的xml文件*waitForCompletion --提交 *submit *submitJobInternal 执行5件事 1.检查job的输入输出目录 2.*计算文件切片数量 3.设置/准备job运行环境 4.拷贝当前job的Jar包和配置到HDFS系统目录–...原创 2019-06-18 21:28:13 · 242 阅读 · 0 评论 -
Map-output源码分析
大数据第12天Map-output源码分析*MapTask *runNewMapper (output) *NewOutputCollector 攻破输出 partitioner分区器 分区数量的2种情况: 1分区号都是0,都在一个reduce中,都在同一个分区 >1 getPartitioner 进入Jo...原创 2019-06-19 07:41:18 · 127 阅读 · 0 评论 -
Reduce源码分析
大数据第12天Reduce源码分析先拉取数据(拷贝Map的输出数据),再二次排序(分组的比较–迭代器),最后是reduceReduceTask *rIter 用于代表reduce从所有Map拉取的数据,有归并功能(基于Map的归并方法) --真迭代器 *compartor 分组比较器 *getOutputValueGropingComparator 比较器取值过程 ...原创 2019-06-19 07:41:39 · 265 阅读 · 0 评论