hadoop
love others as self
love others as self! ----愿美梦成真!
展开
-
Hive和HBase区别
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一转载 2016-06-18 17:32:20 · 494 阅读 · 0 评论 -
HDFS副本放置策略及机架感知
副本放置策略副本放置策略的基本思想是: 第一个block副本放在和client所在的node里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node)。 第二个副本放置在与第一个节点不同的机架中的node中(随机选择)。 第三个副本和第二个在同一个机架,随机放在不同的node中。 如果还有更多的副本就随机放在集群转载 2016-11-29 10:25:51 · 1963 阅读 · 0 评论 -
hadoop知识
1.Hadoop2.0简述[1]与之前的稳定的Hadoop-1.x相比,Apache Hadoop 2.x有较为显著的变化。这里给出在HDFS和MapReduce两方面的改进。 HDFS:为了保证name服务器的规模水平,开发人员使用了多个独立的Namenodes和Namespaces。这些Namenode是联合起来的,它们之间不需要相互协调。Datanode可以为所有Namen转载 2016-11-23 13:43:01 · 334 阅读 · 0 评论 -
[HADOOP] 简单了解NameNode的ZKFC机制
之前在准备中级课程PPT,整理了下HA的基本内容,并且感谢松哥为我们提供了HA不会切的问题,以至于之后刚好出现的NameNode宕机,能够快速解决。NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制在此之前,我先提几个问题:一般导致NameNode切换的原因ZKFC的作用是什么?如何判断一个NN是否健康NameNode H转载 2017-03-30 18:16:19 · 1145 阅读 · 0 评论 -
Hadoop Streaming框架使用
Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个转载 2017-09-26 13:54:43 · 340 阅读 · 0 评论 -
hadoop 代码中获取文件名
在hadoop的MR相关代码中,经常需要获得mapper输入的文件名,从而针对不同的文件进行不同的操作。下面简单地介绍一下如果在MR代码中获取文件名1.在streaming中获取文件名实际中经常用python开发streaming程序,在python代码中可以用如下方式获得文件名:import osfilepath = os.environ["mapreduce_map_i转载 2017-09-27 14:21:58 · 1278 阅读 · 0 评论 -
Hadoop Streaming
Hadoop Streaming 是Hadoop提供的一个编程工具,Streamining框架允许任何可执行文件或者脚本文件作为Mapper和Reducer在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大。Streamining的原理:mapper和reducer会从标准输入中读取数据,一行一行处理后发送给标准输出,S转载 2017-09-29 15:34:42 · 798 阅读 · 0 评论