Hadoop
文章平均质量分 74
super_luc
走着走着,花就开了
展开
-
Hadoop学习笔记(三):Hive简介
定义 Hive是一个构建在Hadoop上的数据仓库框架。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。(来自百度百科~~)metastore m原创 2015-05-07 10:23:26 · 1071 阅读 · 0 评论 -
转帖-hadoop的JobId TaskId生成规则
在hadoop的任务job中,jobid是标志一个任务的唯一标志,可以用于定位到该job,查询该job相关信息,kill掉该job 。 jobId是如何生成的呢 ? 在一般的服务集群上我们通过JobTracker来管理job,该id既是通过JobTracke的getNewJobId()方法得到,具体代码如下: public synchronized JobID g原创 2015-05-07 10:23:24 · 1840 阅读 · 0 评论 -
Hadoop学习笔记(一):MapReduce的输入格式
Hadoop学习有一段时间了,但是缺乏练手的项目,老是学了又忘。想想该整理一个学习笔记啥的,这年头打字比写字方便。果断开博客,咩哈哈~~ 开场白结束(木有文艺细胞) 默认的MapReduce作业import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;原创 2015-05-07 10:23:18 · 870 阅读 · 0 评论 -
Hadoop学习笔记(四):HBase
HBase是在一个HDFS上开发的面向列的分布式数据库。HBase不是关系型数据库,不支持SQL。HTable一些基本概念Row key行主键, HBase不支持条件查询和Order by等查询,读取记录只能按Row key(及其range)或全表扫描,因此Row key需要根据业务来设计以利用其存储排序特性(Table按Row key字典序排序如1,10,100,11,2)提原创 2015-05-07 10:23:29 · 624 阅读 · 0 评论 -
Hadoop学习笔记(二):MapReduce的特性-计数器、排序
计数器 计数器是一种收集作业统计信息的有效手段,用于质量控制或应用级统计。说白了就是统计整个mr作业所有数据行中符合某个if条件的数量,(除某些内置计数器之外)。仅当一个作业执行成功之后,计数器的值才是完整可靠的。如果一个任务在作业执行期间失败,则相关计数器值会减小,计数器是全局的。 计数器分为以下几种: 1)内置计数器,内置的作业计数器实际上由j原创 2015-05-07 10:23:21 · 658 阅读 · 0 评论