![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HADOOP
文章平均质量分 61
iteye_13339
这个作者很懒,什么都没留下…
展开
-
HIVE表数据量和数据记录数的矛与盾
HIVE作为在Hadoop分布式框架下的数据仓库技术,处理大数据量是最基本的诉求,这种海量处理是基于分布式框架,利用分布式存储,分布式计算,利用大集群的资源并行处理海量数据。但是一旦我们不能利用这种分布式并行处理,那么海量数据只能是低效处理了。再往细处说,就是一份海量数据需要多少map来处理,一个map能处理多少数据,这些都制约着数据处理的效率。HIVE的执行效率问题可以...2012-07-06 09:45:12 · 427 阅读 · 0 评论 -
Hadoop 中使用DistributedCache遇到的问题
自己在写MAR/REDUCE代码时,遇到了一个问题,一个大数据文件和一个小数据文件匹配计算,但是小数据文件太小,所以想采用HIVE的MAP JOIN的方式,把小数据文件放到直接大数据文件map的datanode的内存中,这样少了MR代码的1对N的数据文件关联。实现这个的最佳方案就是利用distributed cache。HIVE的MAP JOIN也是利用这个技术。首先简要...原创 2012-03-29 15:59:40 · 411 阅读 · 0 评论 -
MapReduce的排序和二次排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列...2012-04-20 10:38:59 · 546 阅读 · 0 评论 -
HBASE源码阅读(1)--启动脚本
HBASE所有功能模块的启动都是通过start-hbase.sh调起的,所以源码学习之路就从start-hbase.sh开始。start-hbase.sh主要和如下几个启动文件相关:hbase,hbase-daemon.sh,hbase-daemons.sh,zookeepers.sh,regionservers.sh,hbase-config.sh。相关的shell源码分析可以看...2012-09-27 15:38:02 · 113 阅读 · 0 评论 -
推测执行的不适应场景
在HADOOP里,如果一个任务运行比预期的慢,就会尽快检测和启动另一个相同的任务作为备份来执行相同的工作,虽然它会降低执行慢的任务执行失败带来的损失,但也会消耗更多的资源,执行重复的工作。有利有弊,可以选择使用。自己写MR代码时就遇到了推测执行会产生错误的情况。当我使用MultipleOutputFormat来把不同数据写到不同目录里时就报错了,错误信息为:org.a...2012-05-25 16:13:12 · 198 阅读 · 0 评论 -
LINUX下单机安装HADOOP+HIVE手册
HADOOP篇HADOOP安装1.tar -zvxf hadoop-0.19.2.tar.gz2.HADOOP的安装路径添加到环境文件/etc/profile中:export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2export PATH=$HADOOP_HOME/bin:$PATHHADOOP配置1.在...原创 2012-05-31 15:59:17 · 238 阅读 · 0 评论 -
Hadoop查看目录空间使用情况
查看目录空间使用情况命令:hadoop fs -count [-q] <paths>统计出目录数、文件数及指定路径下文件的大小,输出列为:DIR_COUNT, FILE_COUNT, CONTENT_SIZE FILE_NAME.带上-q选项后的输出列为:QUOTA, REMAINING_QUOTA, SPACE_QUOTA, REMAINING...原创 2012-06-26 18:42:59 · 3482 阅读 · 0 评论