![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 94
暁洣
读奇书,做奇事,交奇友,做个奇女子
展开
-
Hadoop的missing block
偶然遇到一个有意思的错误,在HDFS写文件的时候描绘出现MissingBlockException,经过翻阅资料以及问题的复现,在排除代码逻辑问题后,大概总结了两个原因:Datanode节点breakDatanode和Namenode之间通信有问题是否由其他原因引起,暂时未知,欢迎补充指正。...原创 2019-03-04 11:19:52 · 889 阅读 · 0 评论 -
HDFS上的文件压缩-巧妙利用shell的管道文件
背景最近遇到这样的一个需要,需要将生产HDFS环境的集群上10个系统的数据,近10个月月末的数据复制一份到测试环境的HDFS集群上。看起来很简单的需求,我是这么想的,将需要的文件列表作为配置文件,通过shell脚本,依次读取该配置文件,并get到堡垒机上,全部下载完成后,将该目录打包压缩,上传到SFTP上,在测试环境上登陆SFTP,下载后,上传到HDFS。半个小时后,脚本测试通过,提交后,遭...原创 2019-04-28 10:57:25 · 1638 阅读 · 0 评论 -
Hadoop的租约机制
租约的概念客户端在每次读写HDFS文件的时候获取租约对文件进行读写,文件操作完成后,释放此租约。 租约内部结构如图所示: 每个客户端用户持有一个租约每个租约内部包含1个租约持有者的信息,还有此租约对应的文件id列表,表示当前租约持有者正在写这些文件id对应的文件每个租约包含有一个最新的更新时间,最新更新时间将会决定此租约是否过期,过期的租约会导致租约持有者无法继续执行写数据到文件中,...原创 2019-04-19 15:43:12 · 915 阅读 · 0 评论 -
Hadoop的shuffle的过程
Hadoop的shuffle的过程可以拆分为:map端的shuffle和reduce端的shuffle。在网上搜了一张shuffle的过程图:一、map端的shuffleMap是映射,负责数据的过滤分发: Map端会处理输入的数据,将产生的中间结果写到本地磁盘。针对上图,对每一步都进行一下解读:1. input在map端首先接触的是InputSplit,在InputSpl...原创 2019-08-09 16:01:08 · 460 阅读 · 0 评论 -
Hadoop中的mapper数量和reducer数量的设定
Hadoop本身提供了map-reduce分布式计算框架,将大文件切块存储、计算,分而治之。在map-reduce框架中,输入数据被划分成等长的小数据块,称为输入分片(input split)。 每个输入分片均会构建一个map任务以处理分片中的每条记录,排过序的处理结果通过网络传输发送到运行reduce任务的节点。 reduce任务节点在复制完所有map输出后,将其按照排序顺序合并。 最后,red...原创 2019-08-26 09:46:57 · 4372 阅读 · 0 评论