自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

penggougoude的博客

分享大数据及相关知识内容

  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 JVM垃圾回收基本原理和实战系列之一

#JVM实战从入门到精通##1、我们写的Java代码是怎么运行起来的?首先假设咱们写好了一份Java代码,那这份Java代码中会包含很多“.java”为后缀的代码文件,比如User.java,OrderService.java,CustomerManager.java。咱们Java程序员平时在Eclipse、Intellij IDEA等开发工具中,就有很多类似这样的Java源代码文件,当我们写...

2020-04-12 23:54:25 313 1

原创 Hadoop之MapReduce(实践篇)

1、MapReduce编程模型概述MapReduce应用广泛的原因之一在于它的易用性。它提供了一个因高度抽象化而变得异常简单的编程模型。MapReduce是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架,它适用的应用场景往往具有一个共同的特点:任务可被分解成相互独立的子问题。基于该特点,MapReduce编程模型给出了其分布式编程方法,共分5个步骤:迭代(iteration):...

2018-09-11 00:05:04 7335 1

原创 Hadoop 之MapReduce(理论篇)

MapReduce On YARN与MRv1在编程模型和数据处理引擎方面的实现是一样的,唯一不同的是运行时环境。不同于MRv1中由JobTracker和TaskTracker构成的运行时环境,MapReduce On YARN的运行时环境由YARN与ApplicationMaster构成,这种新颖的运行时环境使得MapReduce可以与其他计算框架运行在一个集群中,从而达到共享集群资源、提高资源利...

2018-09-05 23:53:22 823 2

原创 Hadoop之YARN

1、YARN背景介绍YARN是在MRv1基础上演化而来的,它克服了MRv1的各种局限性。相比于YARN,MRv1的局限性可概括为如下几个方面:扩展性差。在MRv1中,JobTracker同时兼备了资源管理和作业控制两个功能,这成为系统的一个最大瓶颈,严重制约了Hadoop集群的扩展性;可靠性差。MRv1采用了master/slave结构,其中,master存在单点故障问题,一旦它出现故...

2018-09-05 23:35:38 323

原创 Hadoop之HDFS(实践篇)

上一篇文章介绍了HDFS的体系结构及基本原理等偏理论性的内容,本文将更多地从命令行操作、Java程序编写等实践角度着手,对HDFS的使用进行介绍。1、HDFS的命令行操作HDFS是存取数据的分布式文件系统,对HDFS的操作,就是文件系统的基本操作,如文件的创建、修改、删除、修改权限等。对HDFS的操作命令类似于Linux的shell对文件的操作,如ls、mkdir、rm等。总的来说,H...

2018-09-04 00:25:32 4922

原创 Hadoop之HDFS(理论篇)

1、初识HDFSHDFS作为一个分布式文件系统,具有高容错的特点,它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合那些需要处理海量数据集的应用程序。HDFS没有遵循可移植操作系统接口(Portable Operation SystemInterface,POSIX)的要求,不支持“ls”或“cp”这样的标准UNIX命令,也不支持如fopen()和fread()这样的文件读写方法,而是...

2018-09-03 23:53:23 2065

原创 Hadoop环境安装篇

1、 Hadoop初识Hadoop基本架构:Hadoop由两部分组成,分别是分布式文件系统HDFS和分布式计算框架MapReduce。其中,分布式文件系统主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统之上,对存储在分布式文件系统中的数据进行分布式计算。在Hadoop中,MapReduce底层的分布式文件系统是独立模块,用户按照约定的一套接口实现自己的分布式文件系...

2018-09-02 16:37:26 1054

原创 大数据基础:必备Linux操作系统知识

Hadoop通常都是搭建在Linux操作系统之上,故在搭建Hadoop实验环境之前,首先需要创建Linux系统环境。由于我们只是搭建Hadoop实验环境,而不是生产环境,因此,为简单起见,就采用虚拟机VMware+Linux操作系统RedHat(小红帽)。本文先介绍Linux操作系统的安装过程,以及Linux操作系统的一些相关基础知识,后续文章再接着介绍Hadoop实验环境的搭建及Hadoop等一...

2018-09-02 15:59:20 10922

原创 大数据技术背景介绍(开号篇)

1、什么是大数据?大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点(IBM提出):Volume(大量)——数据的大小决定所考虑的数据的价值和潜在的信息;Velocity(高速)——指获得数据的速度;Variety(多样)...

2018-09-02 15:18:46 17241

大数据管理 数据集成技术、方法最佳实践 高清电子书

本书高屋建瓴地阐述了在大中型企业中,不同计算机系统之间传输数据、集成数据所用到的技巧、技术和最佳实践。通过阅读本书,你将了解行业专家对数据集成技术的独到见解,并掌握开发和管理数据集成方案的使用技术、工具集和架构。

2018-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除