自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive job配置和mapreduce数目控制

开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境:

2013-11-26 11:19:08 7562

原创 hive merge file

当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并当然,在我们向一个表写数据时,也需要注意输出文件大小1. Map输入合并小文件对应参数:set mapred.max.

2013-11-26 11:17:37 1068

原创 mapreduce实现对key的排序

最近在学习MapReduce编程遇到很多用MR实现按某一列值排序,或二次排序的类似问题,于是试着用MR实现各种排序问题,最终有点小总结:无需在key对象之外写任何排序函数,MR会完成按key值排序,具体详解如下:  在这之前要先说一下WritableComparable接口。Writable接口大家可能都知道,它是一个实现了序列化协议的序列化对象。在Hadoop中定义一个结构化对象都要实现Wr

2013-11-08 14:38:48 5301

原创 mapreduce实现多文件自定义输出

本人在项目中遇到一个问题,就是在处理日志的时候,需要有多个key,比如一行日志是 domain sip minf h b而我处理的时候需要map输出为 key:domain+minf value h+"|"+b 和key:sip+minf value h+"|"+b,而且还要做逻辑运算,比如相同的key的value要做累加,普通的mr通常情况下,计算结果会以part-000*输出成多个

2013-11-08 14:30:12 7382

原创 Hbase counter

本文是本人在做项目中有一个需求,就是日志分析各字段,我是定时去分析日志,需要记录每个域名+时间戳的hits和bits,但是有一个问题处理起来比较头疼,那就是有的日志会有延迟,比如12点去跑11点的日志,但是发现11点的日志中有10点的日志,所以每次都是先去取出来 ,若存在,则累加,再放入,这效率太低了,之后发现counter正好可以完成该使用场景,即:read+count+write,正好完成,就

2013-11-08 13:51:54 5009 1

原创 mapreduce如何调用第三方jar包

MapReduce程式调用第三方包:我在使用过程中需要用到hbase的jar包,若要使用,常规是添加到每台机器的classpath中,但是通过DistributeCache,在初始化前加入就ok了。解决方法介绍:我们知道,在Hadoop中有一个叫做DistributedCache的东东,它是用来分发应用特定的只读文件和一个jar包的,以供Map-Reduce框架在启动任务和运行的时候使

2013-11-08 13:13:18 6870 1

锋利的jquery示例

详细的锋利的jquery案例 本文件是《锋利的jQuery》一书的源代码,该书共八章,主要讲到jQuery的基本选择器、jQuery与ajax的集成,还有一些华丽的页面特效,是一款很适合初学者的jQuery教程。

2012-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除