hadoop
攻城的蒂巴格
这个作者很懒,什么都没留下…
展开
-
Hadoop安装教程及单机/伪分布式配置
Hadoop像谜一样存在着,为了揭开它神秘的面纱,我开始着手实践 Hadoop 。首先说明一点这篇文章不是我的原创,作为笔记我在此基础上加了一些自己的东西。但可以肯定的从虚拟机、Ubuntu、Hadoop我都亲手走过,最终为分布运行成功(花了近2天时间)。配置清单:1、Vmware 122、Ubuntu16.04 Kylin3、Hadoop2.7环境转载 2016-06-23 18:03:09 · 778 阅读 · 0 评论 -
org.apache.hadoop.ipc.RemoteException(java.io.IOException)
[hadoop@master sbin]$ hdfs dfs -mkdir -p /user/oracle/input16/11/08 09:53:10 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where app原创 2016-11-08 16:45:34 · 8223 阅读 · 2 评论 -
HDFS学习笔记(3)HDFS数据流读写
一、数据流读取Configuration conf = newConfiguration();FileSystem fs = FileSystem.get(conf);FSDataInputStream in = fs.open(new Path(uri));步骤如下:1、客户端调用FileSystem的get()方法得到一个实例转载 2016-09-08 17:42:21 · 843 阅读 · 0 评论 -
HDFS学习笔记(2)HDFS运行机制
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。转载 2016-06-24 10:42:10 · 783 阅读 · 0 评论 -
HDFS学习笔记(1)认识HDFS
哦请问恶气我转载 2016-09-08 12:02:48 · 881 阅读 · 0 评论 -
hadoop运行的幕后角色
Hadoop这头大 象奔跑起来,需要在集群中运行一系列后台(deamon)程序。不同的后台程序扮演不用的角色,这些角色由NameNode、DataNode、 Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上,而在每个Slave节点上,部署一个Data原创 2016-09-19 17:40:01 · 1834 阅读 · 0 评论 -
Map-Reduce数据流(data flow)
Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTrackerTaskTracker:运行此job的task,处理input split,其为一个Java进程,其main class为TaskTrackerHDFS:hadoop分布式原创 2016-09-14 15:00:14 · 881 阅读 · 0 评论 -
HDFS学习笔记(8)mapreduce原理
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+004301转载 2016-09-14 11:53:37 · 740 阅读 · 0 评论 -
HDFS学习笔记(7)mapreduce
1、hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等。2、MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapre转载 2016-09-13 16:27:22 · 616 阅读 · 0 评论 -
HDFS学习笔记(6)AVRO
一、引言1、 简介Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集原创 2016-09-13 14:14:49 · 2706 阅读 · 0 评论 -
HDFS学习笔记(5)IO读写操作之数据压缩
Hadoop 作为一个较通用的海量数据处理平台,每次运算都会需要处理大量数据,我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率,提高数据在磁盘和网络中的传输速度,从而提高系统处理数据的效率。在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性。综合所述,使用压缩的优点如下:1. 节省数据占用的磁盘空间;2. 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。转载 2016-09-13 13:51:37 · 3874 阅读 · 1 评论 -
HDFS学习笔记(4)IO读写操作之checksum
Datanode在把数据实际存储之前会验证数据的校验和(checksum的初始值?)。client通过pipeline把数据写入datanode. 最后一个datanode会负责检查校验和。当client从datanode读取数据时,也会检查校验和:把真实数据的校验和同datanode上的校验和进行比较。每个datanode都保存有一个checksum验证的持久化日志,日志中有当前datano原创 2016-09-13 11:59:50 · 1996 阅读 · 0 评论 -
HDFS数据存储和删除
HDFS中的数据都是分块存储的,默认块大小为64M,这个值可以从hdfs配置文件中更改dfs.blocksize。这样分快处理的好处是可以增加读取数据的吞吐量,因为可以同时从读取文件的不同分块。一、数据写入在客户端想HDFS写数据的过程中,主要分为下面几个过程:客户端将数据缓存到本地的一个临时文件中;当这个本地的临时文件到达HDFS中的块大小限制时,客户端访问Namenod转载 2016-11-10 17:17:10 · 7217 阅读 · 0 评论