Big Data
文章平均质量分 77
Ameliawmp
这个作者很懒,什么都没留下…
展开
-
MapReduce及其工作机制 (Book Review & Personal Conclusion)
MapReduceMapReduce作为一种分布式处理数据的编程模型,可以将big data 分析tasks交给任何一个拥有足够机器组成的集群环境的node上。为了能够并行地处理大规模的数据,我们需要将对数据的查询表示成MapReduce 作业。 MapReduce主要分为两个阶段: map阶段和reduce阶段。每个阶段都以key/value对作为输入和输出,类型格式由程序员根据编程需要原创 2012-08-23 20:04:09 · 1472 阅读 · 0 评论 -
Hadoop 之failed task任务和killed task任务
【转载】Hadoop之failed task任务和killed task任务failed task可理解为自杀,也就是task本身出了问题而自杀;killed task可理解为是他杀,也就是jobtracker认为这个任务的执行是多余的,所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task,还经常好奇为什么有的转载 2012-09-10 15:38:07 · 1334 阅读 · 0 评论 -
Hive相关 & 提升Hive性能方法收集(持续更新ing)
Hive作为一种建立在Hadoop上的数据仓库,是一种能够分析、查询和存储在Hadoop中的大规模数据机制。Hive定义了简单的类SQL的查询语言,称为HQL,便于当下熟悉SQL语言的用户查询数据。Hive查询语言相关1. JOIN Hive支持两个表间以及两个以上表间的JOIN操作。Hive能够支持的JOIN操作包括:equality joins(不支持非等价连接的原因原创 2012-08-22 16:35:24 · 1906 阅读 · 0 评论