Hadoop
文章平均质量分 68
ROGEN-秀发
JAVA、linux、hadoop、hbase、hive、spark、mahout
展开
-
Hadoop回顾--hive中order by,sort by, distribute by, cluster by作用以及用法
转自:http://blog.csdn.net/jthink_/article/details/389037751. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有转载 2016-09-20 01:56:27 · 416 阅读 · 0 评论 -
Hadoop回顾--HDFS工作流程
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。(商用机) ③...转载 2016-09-18 13:43:12 · 570 阅读 · 0 评论 -
Hadoop回顾--MapReduce错误处理
错误处理出现错误主要有以下三种: 1、Task任务 2、JobTracker失败 3、TaskTracker失败Task任务1、当map或者reduce子任务中的代码抛出异常,JVM进程会在退出之前向服务tasktracker进程发送错误报告,tasktracker会将此(任务尝试)taskattempt标记为failed状态,释放一个槽以便运行另外一个任务。转载 2016-09-18 12:53:50 · 461 阅读 · 0 评论 -
Hadoop回顾--HFDS原理、架构与特性介绍(一)
1:当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构: ${ dfs.name.dir}/current /VERSION转载 2016-09-17 16:46:26 · 8713 阅读 · 0 评论 -
Hadoop回顾--MapReduce工作原理(二)
目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程 正文: 1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行转载 2016-09-17 16:32:03 · 297 阅读 · 0 评论 -
Hadoop回顾--MapReduce工作原理(一)
第一部分:MapReduce工作原理 MapReduce 角色•Client :作业提交发起者。•JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业。•TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务。提交作业•在作业提交之前,需要对作业进行配置•程序代码转载 2016-09-17 16:03:31 · 290 阅读 · 0 评论 -
HADOOP中的容错机制
1. JobTracker容错在MapReduce中,JobTracker掌握了整个集群的运行信息,包括节点健康状况,资源分布情况以及所有作业的运行时信息。如果JobTracker因故障而重启,像节点情况以及资源情况可以利用心跳来构造,但是对于作业运行状态可能会丢失,意味着之前已经运行完成的任务会重新运行。因此,这里的关键是保存和恢复作业运行的信息。现有的技术分为3个级别的恢复机制转载 2016-09-10 18:19:52 · 572 阅读 · 0 评论 -
Hadoop回顾--Hive特性(一)
一、Hive的特点- HQL:一种类SQL语言- 存储位置 - Hive:所有数据存储在HDFS上 - 数据库:存储在块设备或者本地文件系统中- 数据格式 - Hive:没有专门的数据格式,数据格式可以自定义,文件格式有三个默认格式(TextFile、SequenceFile、RCFile),由于在加载数据时不用进行格式转换原创 2016-09-18 21:51:38 · 542 阅读 · 0 评论 -
Hadoop回顾--Hive基本知识(二)
一、创建表- 创建表时ROW FORMAT DELIMITED 必须写在其他子句之前(除了STORED AS...)- 设置列分隔符:FIELDS TERMINATED BY '\001'- 设置集合元素间分隔符:COLLECTION ITEMS TERMINATED BY '\002'- 设置map键和值之间的分隔符:MAP KEYS TERMINATED BY原创 2016-09-18 21:54:22 · 361 阅读 · 0 评论 -
Hadoop回顾--MapReduce异常处理
一、MapReduce任务异常的处理方式1、异常最常见的是:(1)Map或Reduce任务中的某些代码抛出异常,此时Hadoop强行停止java虚拟机,并向JobTracker汇报,JobTracker将任务标记为失败显示给用户,同时写入日志目录。(2)MapReduce因为JVM的bug或者节点硬件的问题产生异常(非代码问题),TaskTracker重新更换节点运行,若一个任务在不同原创 2016-09-20 01:10:21 · 2294 阅读 · 0 评论 -
Hadoop回顾--MapReduce的负载均衡
接触了近一年的Hadoop,对MapReduce的工作流程,容错机制都有了一些浅显的理解。自己也写过一些加载文件和排序的MapReduce,但一直处于学习阶段,对MapReduce在集群上的应用理解还是太浅,在这说说我对MapReduce负载均衡的认识。一、Randomized Hydrodynamic Load Balancing:基本内容负载平衡用来确保在使用其原创 2016-09-20 01:24:58 · 2580 阅读 · 0 评论 -
Hadoop回顾--HDFS的HA机制&Federation机制
为了解决hadoop集群上所谓的“单点”和单NameNode起作用问题,一群NB的程序员引入了HA和Federation机制。一、HA机制1、概念由于原先的集群中只有一个NameNode,所以一旦这个NameNode出问题或者要升级,整个集群就得停止一段时间。于此,就有了HA机制。说白了所谓的HA机制就是给NameNode弄了一个热备:给一个HA集群中配置了俩NameNode,平时原创 2016-09-20 02:47:52 · 1462 阅读 · 1 评论