hadoop权威指南学习散记

寻址时间的提高远远慢于传输速率的提高
结构化数据如 :xml 半结构化数据 :电子表格 非结构化数据:纯文本/图像数据
关系型数据库与MapReduce差异正在消失
磁盘块一般512k HDFS文件块64M 大块是为了最小化寻址开销
hadoop 操作级别 job(分析词频)->tasks(每个数据块一个task)->多次map+reduce(如每行数据一次执行过程)
mapper->reducer过程中可以改用mapper->combiner->reducer用来优化系统减少带宽负载,一般每个task占用一个线程


namenode在内存中保存文件系统中每个文件和每个数据块的引用关系,它管理文件系统的命名空间,维护者文件系统树以及整棵树内所有的文件和目录,保存为两个文件 1、命名空间镜像文件2、编辑日志文件
namenode服务器使用一个辅助namenode以及采用原子操作的NFS保证namenode的容错
2.X增加了对高可用性HA的支持,通过active-standby的配置实现
dfs.replication默认设置为3但必须保证有至少3和dataNode
当一个块写入完才会被所有reader可见,可以使用hsync保证数据不丢失,此方法会保证当前写入数据对整个管线可见,HDFS中关闭文件隐含调用了sync
Apache Flume导入大规模流数据,分为最大努力投递和端到端投递,Sqoop导入结构化数据,disTcp用于两个HDFS集群之间大量复制文件,必须保证hdfs版本一致,因为不同版本RPC不兼容,disTcp运行一个MapReduce job,只用mapper保证每个数据块一个mapper task,多线程异步执行task。可以使用webhdfs解决兼容性问题
.har文件为hadoop存档文件 namenode内存数据块元数据等可以存入har中,当然也可以使用联邦hdfs提高命名空间可扩展性
RawFileSystem 源文件系统/底层文件系统
YARN容器调度器默认值最小值1G最大值10G
YARN相当于进一步实现了Hadoop 的JobTracer的分布式,提高了更大数据量的性能,并且资源分配有专门的管理器,任务资源分配不再局限于槽的限制,分配更加细粒度,资源利用更充分,相当于jobTracer以及taskTracer的分配均以NodeManager为单位来实现,并且jobTracer所在NodeManager可以单独处理小作业或者通过app master申请新的nodeManager来执行taskTracer的任务
map有一个缓存区,溢出的话会生成溢出文件,combiner运行在map任务执行结果内排序之后,当最后再次合并这些文件时,若多于设置的文件数量则会再次进行combiner
reduce任务有默认5个复制线程能够获取map输出,若map输出比较小则直接复制到reducer内存中,通过设定合并因子最终合并为一个文件。
推测执行是为了减少作业执行时间,但是却是以集群效率为代价的。默认开启,可以选择关闭。软件缺陷也会触发推测执行。reducer通常关闭,因为一旦触发将严重影响集群效率。
OutputCommitters用来知道哪个一个确保作业和任务都完全成功或者失败的协议。
CombineFileInputFormat相比于FileInputFormat:后者为每个小文件(小于hdfs块)产生一个分片,而前者可以通过合并小文件减少分片数量进而减少map数量,最小化寻址开销以及减轻namenode的内存负担
同样如果存入hdfs时可以选用SequenceFile合并小文件减少namenode内存开销
FileInputFormat的具体子类并重写isSplitable返回false来取消文件分片
使用WholeFileInputFormat将整个文件读取为一条记录
MapReduce处理多个输入时可以指定多个源并制定多个mapper
FileInputFormat可以指定为延迟输出
全局排序时可采用两种方式1、一个分片 2、使用采样器并合理分片
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值