- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 hive job配置和mapreduce数目控制
开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境:
2013-11-26 11:19:08 7613
原创 hive merge file
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参数:set mapred.max.
2013-11-26 11:17:37 1094
原创 mapreduce实现对key的排序
最近在学习MapReduce编程遇到很多用MR实现按某一列值排序,或二次排序的类似问题,于是试着用MR实现各种排序问题,最终有点小总结:无需在key对象之外写任何排序函数,MR会完成按key值排序,具体详解如下: 在这之前要先说一下WritableComparable接口。Writable接口大家可能都知道,它是一个实现了序列化协议的序列化对象。在Hadoop中定义一个结构化对象都要实现Wr
2013-11-08 14:38:48 5334
原创 mapreduce实现多文件自定义输出
本人在项目中遇到一个问题,就是在处理日志的时候,需要有多个key,比如一行日志是 domain sip minf h b而我处理的时候需要map输出为 key:domain+minf value h+"|"+b 和key:sip+minf value h+"|"+b,而且还要做逻辑运算,比如相同的key的value要做累加,普通的mr通常情况下,计算结果会以part-000*输出成多个
2013-11-08 14:30:12 7398
原创 Hbase counter
本文是本人在做项目中有一个需求,就是日志分析各字段,我是定时去分析日志,需要记录每个域名+时间戳的hits和bits,但是有一个问题处理起来比较头疼,那就是有的日志会有延迟,比如12点去跑11点的日志,但是发现11点的日志中有10点的日志,所以每次都是先去取出来 ,若存在,则累加,再放入,这效率太低了,之后发现counter正好可以完成该使用场景,即:read+count+write,正好完成,就
2013-11-08 13:51:54 5052 1
原创 mapreduce如何调用第三方jar包
MapReduce程式调用第三方包:我在使用过程中需要用到hbase的jar包,若要使用,常规是添加到每台机器的classpath中,但是通过DistributeCache,在初始化前加入就ok了。解决方法介绍:我们知道,在Hadoop中有一个叫做DistributedCache的东东,它是用来分发应用特定的只读文件和一个jar包的,以供Map-Reduce框架在启动任务和运行的时候使
2013-11-08 13:13:18 6909 1
锋利的jquery示例
2012-11-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人