2013年11月_evo_steven

12月 11月 09月

原创 hive job配置和mapreduce数目控制

开启动态分区：hive.exec.dynamic.partition=true默认值：false描述：是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值：strict描述：strict是避免全分区字段是动态的，必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。设置如下参数配置动态分区的使用环境：

2013-11-26 11:19:08 7613

原创 hive merge file

当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，在我们向一个表写数据时，也需要注意输出文件大小1. Map输入合并小文件对应参数：set mapred.max.

2013-11-26 11:17:37 1094

原创 mapreduce实现对key的排序

最近在学习MapReduce编程遇到很多用MR实现按某一列值排序，或二次排序的类似问题，于是试着用MR实现各种排序问题，最终有点小总结：无需在key对象之外写任何排序函数，MR会完成按key值排序，具体详解如下：　　在这之前要先说一下WritableComparable接口。Writable接口大家可能都知道，它是一个实现了序列化协议的序列化对象。在Hadoop中定义一个结构化对象都要实现Wr

2013-11-08 14:38:48 5334

原创 mapreduce实现多文件自定义输出

本人在项目中遇到一个问题，就是在处理日志的时候，需要有多个key，比如一行日志是 domain sip minf h b而我处理的时候需要map输出为 key：domain+minf value h+"|"+b 和key：sip+minf value h+"|"+b，而且还要做逻辑运算，比如相同的key的value要做累加，普通的mr通常情况下，计算结果会以part-000*输出成多个

2013-11-08 14:30:12 7398

原创 Hbase counter

本文是本人在做项目中有一个需求，就是日志分析各字段，我是定时去分析日志，需要记录每个域名+时间戳的hits和bits，但是有一个问题处理起来比较头疼，那就是有的日志会有延迟，比如12点去跑11点的日志，但是发现11点的日志中有10点的日志，所以每次都是先去取出来，若存在，则累加，再放入，这效率太低了，之后发现counter正好可以完成该使用场景，即：read+count+write，正好完成，就

2013-11-08 13:51:54 5052 1

原创 mapreduce如何调用第三方jar包

MapReduce程式调用第三方包：我在使用过程中需要用到hbase的jar包，若要使用，常规是添加到每台机器的classpath中，但是通过DistributeCache，在初始化前加入就ok了。解决方法介绍：我们知道，在Hadoop中有一个叫做DistributedCache的东东，它是用来分发应用特定的只读文件和一个jar包的，以供Map-Reduce框架在启动任务和运行的时候使

2013-11-08 13:13:18 6909 1

锋利的jquery示例

详细的锋利的jquery案例本文件是《锋利的jQuery》一书的源代码，该书共八章，主要讲到jQuery的基本选择器、jQuery与ajax的集成，还有一些华丽的页面特效，是一款很适合初学者的jQuery教程。

2012-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人