HDFS、Mapreduce和YARN
qq_39682761
这个作者很懒,什么都没留下…
展开
-
HDFS的读写数据流程
Hdfs的写数据流程1、使用HDFS提供的客户端Client,向远程的Namenode发起RPC请求2、Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;3、当客户端开始写入文件的时候,客户端会将文件切分成多个packets,并在内部以数据队列“data queue(数据队列)”的形式管理这些packets,并向Na...原创 2019-03-20 20:55:23 · 352 阅读 · 0 评论 -
hdfs的数据压缩算法
文章目录1.Gzip压缩2.Bzip2 压缩3.Lzo 压缩4.Snappy 压缩1.Gzip压缩优点:(1)压缩比例比较高,而且压缩、解压速度比较快;(2)hadoop 本身支持,在应用中处理gzip 格式的文件就和直接处理文本一样;大部分 linux 系统都自带 gzip 命令,使用方便.缺点:不支持 split。应用场景: 当每个文件压缩之后在 130M 以内的(1 个块大小内)...原创 2019-03-20 20:47:02 · 758 阅读 · 0 评论 -
HDFS常见问题及命令
文章目录Q1、当小文件数量过多时,如何合并小文件?Q2、hdfs里的 edits和 fsimage作用?Q3、hadoop出现文件块丢失怎么处理?Q4、用命令显示所有的datanode的健康状况Q5、hadoop1.x和2.x、MRv1和MRv2架构上的区别?Q6、如何离开安全模式Q7、如何快速杀死一个jobQ8、Hdfs回收站(防误删)Q1、当小文件数量过多时,如何合并小文件?可以通过命...原创 2019-03-20 21:43:31 · 2800 阅读 · 1 评论 -
mapreduce流程
1.通过FileInputformat的文件加载器加载指定路径,底层调用LineReader进行文件读取不同逻辑切片的数据文件(并行),并按行解析成键值对,其中key为每行相对于首行的偏移量,value为每一行的值,每个键值对调用一次map()函数;2.用户写map()函数,对输入的<key,value>对进行处理,并输出新的<key,value>对;3.输出的数据经过...原创 2019-03-20 22:15:58 · 93 阅读 · 0 评论 -
Yarn的执行流程及常见问题
文章目录Q1、Yarn支持的调度器和硬件资源种类?Q2、Yarn作业执行流程Q3、job提交过程Q1、Yarn支持的调度器和硬件资源种类?YARN自带了三种常用的调度器,分别是FIFO,Capacity Scheduler和Fair SchedulerFIFO先进先出,按提交顺序执行Capacity:计算能力调度器,根据任务大小进行手动配置资源Fair:公平调度器,集群中的所有job平均...原创 2019-03-21 10:00:53 · 370 阅读 · 0 评论