- 博客(5)
- 资源 (1)
- 收藏
- 关注
转载 Hive - hive.groupby.skewindata环境变量与负载均衡
HiveQL 去重操作和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例:(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT ip, count(DISTINCT uid, uname) FROMlog G
2013-12-24 11:45:59 9780
转载 基于HIVE文件格式的map reduce代码编写
我们的数据绝大多数都是在HIVE上,对HIVE的SEQUENCEFILE和RCFILE的存储格式都有利用,为了满足HIVE的数据开放,hive client的方式就比较单一,直接访问HIVE生成的HDFS数据也是一种必要途径,所以本文整理测试了如何编写基于TEXTFILE、SEQUENCEFILE、RCFILE的数据的map reduce的代码。以wordcount的逻辑展示3种MR的代码。
2013-12-23 16:08:11 840
转载 hadoop作业调优参数整理及原理
文章出处:http://www.alidata.org/archives/14701 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性
2013-12-09 13:22:27 722
原创 传递参数到mapreduce中
今天写MapReduce程序遇到一些问题,就是需要生成一个参数并将这个参数的值传递给MapReduce函数,但是不知道如何实现,于是找到了一些参考网站成功实现了,关键点就在于Configuration参数设置于获取以及我的实现是基于新的MapReduce的api实现的。Configuration conf = ServerConfig.getConfiguration();
2013-12-09 12:29:47 7099
原创 mapreduce排序和二次排序以及全排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列
2013-12-05 12:02:04 17168 1
锋利的jquery示例
2012-11-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人