hadoop
文章平均质量分 71
超人学院-CRXY
这个作者很懒,什么都没留下…
展开
-
Hadoop源代码分析(三)
由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化,而是引入了它自己的系统。org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口。实现了Writable接口的一个典型例子如下:Java代码 1. public class MyWritable implemen原创 2016-07-11 16:46:53 · 227 阅读 · 0 评论 -
使用 Hadoop 开发企业级应用
面对着大数据带来的挑战, 我们需要重新思考为数据分析构建应用的方法了。 构建应用的传统方式是将数据保存在数据库中, 而这通常无法适用于大数据处理。 其原因如下:? 传统应用建立在事务型数据库访问的基础上, 这一点 Hadoop 并不支持。? 鉴于Hadoop中保存数据的量级,实时访问仅对存储在集群上的局部数据具有可行性。? Hadoop的海量数据存储能力允许将数据集的各个版本保存起来,原创 2016-07-13 16:12:28 · 170 阅读 · 0 评论 -
Ruby语言
例2-8中的map函数是用ruby来写的。例2-8:用于查找最高气温的map函数(ruby版)1. #!/usr/bin/env ruby 2. 3. STDIN.each_line do |line| 4. val = line 5. year, temp, q = val[15,4], val[87,5], val[92,1] 6. puts "#{y原创 2016-07-14 17:09:30 · 283 阅读 · 0 评论 -
Hadoop中MR程序的几种提交运行模式
1:在Windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行----输入输出数据可以放在本地路径下(c:/wc/srcdata/)----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata)2:在Linux的eclipse里面直接运行main方法,但是不要添加ya原创 2016-07-04 16:23:37 · 370 阅读 · 0 评论 -
Hadoop源代码分析
下面是和目彔树相关的方法。public boolean rename(String src, String dst) throws IOException;更改文件名。调用FSNamesystem的renameTo,干活的是renameToInternal,最终调用FSDirectory的renameTo方法,如果成功,更新租约的文件名,如下:changeLease(src, dst,原创 2016-07-07 16:58:16 · 129 阅读 · 0 评论 -
从Hadoop URL中读取数据
要从Hadoop文件系统中读取文件,一个最简单的方法是使用java.net.URL对象来打开一个数据流,从而从中读取数据。一般的格式如下:1. InputStream in = null; 2. try { 3. in = new URL("hdfs://host/path").openStream(); 4. // process in 5. }原创 2016-07-08 17:27:07 · 308 阅读 · 0 评论 -
Hadoop源码分析之NameNode的目录构成与类继承结构
与DataNode节点类似,NameNode节点也有自己的目录和类继承结构,但是NameNode节点的目录结构比DataNode节点就简单多了,下面就来简单分析NameNode节点的目录构成与类继承结构。NameNode的目录构成在NameNode节点运行时,维护着整个HDFS中的文件及目录信息,如果NameNode出现故障,如掉电或进程崩溃,那么内存中的信息将全部丢失,因此必须将内存原创 2016-06-30 16:48:26 · 966 阅读 · 0 评论 -
Hadoop源代码分析(一二)
分析完Storage相关的类以后,我们来看下一个大家伙,FSDataset相关的类。上面介绍Storage时,我们并没有涉及到数据块Block的操作,所有和数据块相关的操作,都在FSDataset相关的类中进行处理。下面是类图: Block是对一个数据块的抽象,通过前面的讨论我们知道一个Block对应着两个文件,其中一个存数据,一个存校验信息,如下:blk_314878原创 2016-07-11 16:52:25 · 184 阅读 · 0 评论 -
Hadoop文件系统详解
Hadoop提供了许多文件系统的接口,它一般使用URI 方案来选取合适的文件系统实例交互。举例来说,我们在前一小节中研究的文件系统shell可以操作所有的Hadoop文件系统。原创 2016-07-22 15:35:41 · 159 阅读 · 0 评论 -
重启Hadoop集群时no namenode to stop的异常
今天修改了hadoop集群的配置文件而需要重启集群,但是却报错如下:[hadoop@master ~]# stop-dfs.shStopping namenodes on [master]master1: no namenode to stopmaster2: no namenode to stopslave2: no datanode to stopslave1: no dat原创 2016-06-30 16:06:15 · 241 阅读 · 0 评论 -
hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比
今天修改了hadoop集群的配置文件而需要重启集群,但是却报错如下:[hadoop@master ~]# stop-dfs.shStopping namenodes on [master]master1: no namenode to stopmaster2: no namenode to stopslave2: no datanode to stopslave1: no dat原创 2016-06-30 16:09:26 · 279 阅读 · 0 评论 -
如何基于Docker快速搭建多节点Hadoop集群
Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节点数的Hadoop集群。一. 项目简介GitHub: kiwanlau/hadoop转载 2016-07-12 17:09:07 · 411 阅读 · 0 评论 -
SAS集成Hadoop途径几何?
本文原创作者AnyJack 经常有人问,SAS如何和HADOOP交互、集成?在回答这个问题前,主要看HADOOP在SAS系统中的定位,有下面定位考虑: 1.把HADOOP作为传统数据源供SAS访问 这是最简单的一种应用场景,就是把HADOOP当做类似于ORACLE/DB2等之类的数据库源来使用,SAS有能力直接在HADOOP上进行数据处理,在HADOOP上转载 2016-07-12 17:16:07 · 262 阅读 · 0 评论 -
HData——ETL 数据导入/导出工具
本文来源:开源中国 HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。HData在设计上同时参考了开源的Sqoop、DataX,却与之有不同的实现。HData采用“框架+插件”的结构,具有较好的扩展性,框架相当于数据缓冲区,插件转载 2016-07-12 17:20:53 · 713 阅读 · 0 评论 -
zookeeper注意几点
Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理 1. ZooKeeper是否对ZNode有大小限制 如果你仔细看过ZooKeepe原创 2016-07-12 17:26:05 · 219 阅读 · 0 评论