Hadoop
有梦想的人不睡觉121
大数据开发
展开
-
大数据与Hadoop系列之压缩(二)
压缩流和解压缩流Java最初版本的输入/输出系统是基于流的,流抽象了任何有能力产出数据的数据源,或者是有行能力接收数据的接收端。一般来说,通过设计模式装饰,可以为流添加一些额外的功能,如前面提及的序列化流ObjectInutStream和ObjectOutputStream。压缩流(CompressionOutputStream)和解压缩流(CompressioninputStream)是Hado...原创 2018-06-12 10:37:15 · 6093 阅读 · 0 评论 -
Hadoop configuration源码讲解
平时,加载hadoop conf的配置时代码如下:Configuration conf = new Configuration(); conf.addResource("core-site.xml"); System.out.println(conf.get("hadoop.tmp.dir"));这里我们就来讲解,为什么hadoop不直接用propert...原创 2018-07-24 09:20:55 · 5290 阅读 · 0 评论 -
应对Hadoop集群数据疯长,这里祭出了4个治理对策!
一、背景 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。 所以我们每天都要观察集群的数据增长,观察是否有哪一天、哪个路径增长过猛了,是否增长了很多垃圾数据;继续深挖下去,看看是不是可以删掉无用的数据。 此外我们还要做“容量预估“,把未来的数据增长规划出来,主要是依靠数据增...转载 2018-07-10 12:02:10 · 8269 阅读 · 1 评论 -
大数据与Hadoop系列之压缩(一)
Hadoop压缩简介Hadoop作为一个较通用的海量数椐处理平台,在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性.所有的压缩算法都会考虑时间和空间的权衡,更快的压缩和解压缩速度通常会耗费更多的交间(压缩比较低)例如:通过gzip命令压缩数据时,用户可以设置不同的选项来选择速度优先或空间优先.选项-1表示优先考虑速度,选项-9表示空间最优,可以获得最大的压缩比。需要注意的是:有些压缩算法的...原创 2018-06-11 10:50:49 · 8359 阅读 · 1 评论 -
大数据与Hadoop系列之序列化(二)
上文中,介绍了Java序列化,普通的三个long类型序列化,达到了198字节为了支持以上这些特性, Hadoop引入 org.apache.hadoop.io.Writable接口,作为所有可序列化对象必须实现的接口本文就来介绍下,Hadoop内部自己的序列化机制,还是,先来一个栗子,调用Hadoop提供的Writable接口来实现同样的序列化Writable机制紧凑、快速(但不容易扩展到Java...原创 2018-06-08 17:11:28 · 6300 阅读 · 0 评论 -
大数据与Hadoop系列之分布式文件系统(二)
Linux文件系统前面介绍了文件系统的基本原理,本文通过Linux文件系统进一步深入分析文件系统的具体设计方法。 Linux的本地文件系统包括:Ext2 (Second Extended Filesystem,第二扩展文件系统)Ext3 (ThirdExtended Filesystem,第三扩展文件系统)它们是UNIX文件系统的一种快速、稳定的实现。同时,为了支持多种类文件系统,如网络文件系统、...原创 2018-06-15 10:01:03 · 5840 阅读 · 0 评论 -
大数据与Hadoop系列之序列化(一)
传统的计算机系统通过I/O操作与外界进行交流, Hadoop 的I/O由传统的I/O系统发展而来,但又有些不同, Hadoop 需要处理 P、T 级别的数据,所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输人输出工具.本文会对其中的序列化进行研究。序列化对象的序列化(Serialization)用于将对象编码成一个字节流,以及从字节流中重新构建对象。"将一个对象...原创 2018-06-07 16:21:55 · 9366 阅读 · 0 评论 -
大数据与Hadoop系列之分布式文件系统(一)
文件系统早在 1965 年开发的 Multies ( UNIX 的前身)就详细地设计了文件系统,这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信.息的长期存储,并达到如下要求:1.能够存储大量的信息。2.使用信息的应用终止时,信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法,是把信息以一种单元,即"文件" ( file)的形式存储在磁盘或者其他...原创 2018-06-14 10:51:51 · 11011 阅读 · 1 评论 -
大数据与Hadoop系列之Hadoop版本认知与架构
作为学习Hadoop的第一步,就是根据实际情况选择最合适的 Hadoop版本。而目前由于Hadoop的飞速发展,功能更新和错误修复在不断地迭代着,所以 Hadoop的版本非常多,显得有些杂乱。对于初学者来说,选择一个合适的Hadoop版本进行学习非常重要,本文主要理清各个 Hadoop版本之间的关系与不同。Apache HadoopHadoop目前是 Apache软件基金会的顶级项目,目前由 Ap...原创 2018-06-06 07:20:50 · 5625 阅读 · 1 评论 -
如何从根源上解决 HDFS 小文件问题
原文地址:https://www.iteblog.com/archives/2320.html我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的时候会将这些元数据全部加载到内存...转载 2018-10-16 10:43:28 · 3254 阅读 · 0 评论