跋跋寒的博客

热爱大数据,热爱机器学习

Hadoop configuration源码讲解

平时,加载hadoop conf的配置时代码如下: Configuration conf = new Configuration(); conf.addResource("core-site.xml"); System.out...

2018-07-24 09:20:55

阅读数:1473

评论数:0

应对Hadoop集群数据疯长,这里祭出了4个治理对策!

一、背景 在目前规模比较大的互联网公司中,总数据量能达到10PB甚至几十PB数据量的公司,我认为中国已经有超过了20家了。而在这些公司中,也有很多家公司的日数据增长达到100TB+了。 所以我们每天都要观察集群的数据增长,观察是否有哪一天、哪个路径增长过猛了,是否增长了很多垃圾数据;继续深挖下去,...

2018-07-10 12:02:10

阅读数:3117

评论数:0

大数据与Hadoop系列之分布式文件系统(二)

Linux文件系统前面介绍了文件系统的基本原理,本文通过Linux文件系统进一步深入分析文件系统的具体设计方法。 Linux的本地文件系统包括:Ext2 (Second Extended Filesystem,第二扩展文件系统)Ext3 (ThirdExtended Filesystem,第三扩展...

2018-06-15 10:01:03

阅读数:1937

评论数:0

大数据与Hadoop系列之分布式文件系统(一)

文件系统早在 1965 年开发的 Multies ( UNIX 的前身)就详细地设计了文件系统,这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信.息的长期存储,并达到如下要求:1.能够存储大量的信息。2.使用信息的应用终止时,信息必须保存下来。3.多个应用可以并发地存...

2018-06-14 10:51:51

阅读数:1992

评论数:1

大数据与Hadoop系列之压缩(二)

压缩流和解压缩流Java最初版本的输入/输出系统是基于流的,流抽象了任何有能力产出数据的数据源,或者是有行能力接收数据的接收端。一般来说,通过设计模式装饰,可以为流添加一些额外的功能,如前面提及的序列化流ObjectInutStream和ObjectOutputStream。压缩流(Compres...

2018-06-12 10:37:15

阅读数:1950

评论数:0

大数据与Hadoop系列之压缩(一)

Hadoop压缩简介Hadoop作为一个较通用的海量数椐处理平台,在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性.所有的压缩算法都会考虑时间和空间的权衡,更快的压缩和解压缩速度通常会耗费更多的交间(压缩比较低)例如:通过gzip命令压缩数据时,用户可以设置不同的选项来选择速度优先或空间优...

2018-06-11 10:50:49

阅读数:2031

评论数:0

大数据与Hadoop系列之序列化(二)

上文中,介绍了Java序列化,普通的三个long类型序列化,达到了198字节为了支持以上这些特性, Hadoop引入 org.apache.hadoop.io.Writable接口,作为所有可序列化对象必须实现的接口本文就来介绍下,Hadoop内部自己的序列化机制,还是,先来一个栗子,调用Hado...

2018-06-08 17:11:28

阅读数:1970

评论数:0

大数据与Hadoop系列之序列化(一)

传统的计算机系统通过I/O操作与外界进行交流, Hadoop 的I/O由传统的I/O系统发展而来,但又有些不同, Hadoop 需要处理 P、T 级别的数据,所以在org.apache.hadoop.io包中包含了一些面向海量数据处理的基本输人输出工具.本文会对其中的序列化进行研究。序列化对象的序...

2018-06-07 16:21:55

阅读数:1996

评论数:0

大数据与Hadoop系列之Hadoop版本认知与架构

作为学习Hadoop的第一步,就是根据实际情况选择最合适的 Hadoop版本。而目前由于Hadoop的飞速发展,功能更新和错误修复在不断地迭代着,所以 Hadoop的版本非常多,显得有些杂乱。对于初学者来说,选择一个合适的Hadoop版本进行学习非常重要,本文主要理清各个 Hadoop版本之间的关...

2018-06-06 07:20:50

阅读数:2310

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭