2013年12月_evo_steven

12月 11月 09月

转载 Hive - hive.groupby.skewindata环境变量与负载均衡

HiveQL 去重操作和SQL一样，HiveQL中同样支持DISTINCT操作，如下示例：(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT ip, count(DISTINCT uid, uname) FROMlog G

2013-12-24 11:45:59 9780

转载基于HIVE文件格式的map reduce代码编写

我们的数据绝大多数都是在HIVE上，对HIVE的SEQUENCEFILE和RCFILE的存储格式都有利用，为了满足HIVE的数据开放，hive client的方式就比较单一，直接访问HIVE生成的HDFS数据也是一种必要途径，所以本文整理测试了如何编写基于TEXTFILE、SEQUENCEFILE、RCFILE的数据的map reduce的代码。以wordcount的逻辑展示3种MR的代码。

2013-12-23 16:08:11 840

转载 hadoop作业调优参数整理及原理

文章出处：http://www.alidata.org/archives/14701 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性

2013-12-09 13:22:27 722

原创传递参数到mapreduce中

今天写MapReduce程序遇到一些问题，就是需要生成一个参数并将这个参数的值传递给MapReduce函数，但是不知道如何实现，于是找到了一些参考网站成功实现了，关键点就在于Configuration参数设置于获取以及我的实现是基于新的MapReduce的api实现的。Configuration conf = ServerConfig.getConfiguration();

2013-12-09 12:29:47 7099

原创 mapreduce排序和二次排序以及全排序

自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类，这些是HADOOP自己的序列

2013-12-05 12:02:04 17168 1

锋利的jquery示例

详细的锋利的jquery案例本文件是《锋利的jQuery》一书的源代码，该书共八章，主要讲到jQuery的基本选择器、jQuery与ajax的集成，还有一些华丽的页面特效，是一款很适合初学者的jQuery教程。

2012-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人