- 博客(2)
- 资源 (4)
- 收藏
- 关注
原创 MapReduce 执行流程总结
一、在我们提交完MR程序之后,MR程序会先后经历map,reduce阶段,下面我们详细的来解析一下各个阶段 1 map阶段,在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段 (1) 在read阶段,maptask会调用用户自定义的RecordReader方法,在splitInput中解析出一个个的key-value对 ...
2018-09-23 00:13:06 433
原创 Sqoop最佳实践
一、什么是Sqoop Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载,MapReduce天生的特性保证了并行化和高容错率,而且相比Kettle等传统ETL工具,任务跑在Hadoop集群上,减少了ETL服务器资源的使用情况。在特定场景下,抽取过程会有很大的性能提升...
2018-09-08 01:43:44 778 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人