Hadoop
dingyufei615
从事某医疗互联网大数据研发岗,编程语言主要Java/Scala,熟悉主流大数据计算引擎Spark及Hadoop生态圈及常用开源组件kafka,zookeeper等,熟悉ELK技术栈,Hbase,Hive,Delta等数据存储层框架,主要负责我司用户画像,内容画像相关业务的研发,参与画像数据治理及监控预警等系统的研发工作。
展开
-
MapReduce之mapOutputBuffer解析
转载地址:http://blog.csdn.net/wangqinghuan1993/article/details/53785403 MapOutPutBuffer就是map任务暂存记录的内存缓冲区。不过这个缓冲区是有限的,当写入的数据超过缓冲区设定的阈值时,需要将缓冲区的数据写入到磁盘,这个过程叫spill。在溢出数据到磁盘的时候,会按照key进行排序,保证刷新到磁盘的记录时排好序的。该缓冲...转载 2019-07-25 14:58:19 · 387 阅读 · 0 评论 -
MapReduce运行日志通过Shell脚本聚合统一查看
MapReduce运行日志会在hadoop安装目录logs/下的userlogs文件夹下,在不同的节点上有自己的jobid号的文件夹日志 查看MR任务报告: 命令:yarn application -status application_ID 查看mapreduce log日志: 命令:yarn logs -applicationId application_ID > log.tx...原创 2019-07-23 13:39:34 · 431 阅读 · 0 评论 -
CombineTextInputFormat切片机制优化大量小文件
默认情况下TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会有一个单独的切片,都会交给一个maptask,如果有大量的小文件,就会产生大量的maptask,处理效率及其低下 优化策略 (1) 最好的办法,在数据处理系统的最前端(预处理/采集),将小文件先合并成大文件,再上传到HDFS后续分析 (2)补救措施:如果已经是大量小文件在HDFS中了,...转载 2019-07-27 14:53:34 · 394 阅读 · 0 评论