自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据Hadoop学习

大数据Hadoop学习

  • 博客(82)
  • 收藏
  • 关注

原创 轻松getHadoop大数据开发技术,这一篇文章够了

Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。分布式计算是一个宽泛并且不断变化的领域。具备以下4个特性:1) 方便:Hadoop运行在由一般商用机器构成的大型集群上,或者云计算服务上,比如EC2。2) 健壮:Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁失效,Hadoop可以从容地处理大多数此类故障。3) 可扩展:Hadoop通过增加集群节点,可以...

2019-12-24 11:29:14 465

原创 大数据时代Hadoop的本质,你有过认真了解吗

​除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质的12点介绍,具体如下:1.hadoop是由多个产品组成的。人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。Russom说:“Hadoo...

2019-12-21 14:14:06 263

原创 好程序员大数据教学点睛:Hadoop基础篇

好程序员大数据教学点睛:Hadoop基础篇,Hadoop包含两个部分:1.Hadoop Distributed File System (Hadoop分布式文件系统)HDFS具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了对数据读写的高吞吐率。HDFS是一个master/slave的结构,就通常的部署来说,在master上只运行一个...

2019-12-25 10:52:12 241

原创 「大数据」Hadoop生态系统:分布式计算系统

Apache IgniteApache Ignite In-Memory Data Fabric是一个分布式内存平台,用于实时计算和处理大规模数据集。它包括分布式键值内存存储,SQL功能,map-reduce和其他计算,分布式数据结构,连续查询,消息和事件子系统,Hadoop和Spark集成。 Ignite是用Java构建的,提供.NET和C ++ API。Apache Ignite A...

2019-12-25 10:50:48 834

原创 盘点大数据云计算架构Hadoop、Spark和Storm三者技术趋势

在现如今,随着国内互联网技术飞速的发展和进步,目前大数据这个词便已家喻户晓。但在大数据这个名词被命名之前,人类对数据的搜集与分析已有着悠久的历史。从人工统计分析到电脑/大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上...

2019-12-25 10:46:42 564

原创 基于Hadoop架构下的FineBI大数据引擎技术原理

随着各个业务系统的不断增加,以及各业务系统数据量不断激增,业务用户的分析诉求越来越多且变化很快,IT数据支撑方的工作变得越来越复杂。1、数据来自多个不同的系统,存在需要跨数据源分析,需要对接各种不同数据源等问题。2、需要分析的数据体量越来越大,并且要快速获得分析结果的问题。3、部分数据还需要二次加工处理的问题。供数支撑方在业务系统的前端看起来基本没有任何操作,但背后的逻辑十分复杂,...

2019-12-25 10:44:51 408

原创 解密百度大数据:百度是如何使用hadoop的,并且做了哪些改进?

引读:百度作为全球最大的中文搜索引擎公司,提供基于搜索引擎的各种产品,几乎覆盖了中文网络世界中所有的搜索需求,因此,百度对海量数据处理的要求是比较高的, 要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上。百度在互联网领域的平台需求要通过性能较好的云平台进行处理了,Hadoop就是很好 的选择。在百度,Hadoop主要应用于以下几个方面:日志的存储和统计;网页数据...

2019-12-25 10:43:06 614

原创 Hadoop之后大数据的未来在谁的身上

如今想要学习大数据开发的人有很多,所以有不少的小伙伴参加大数据培训学习大数据,本篇文章小编就给读者们探讨一下Hadoop之后大数据的未来在谁的身上,对大数据开发感兴趣的小伙伴们就随小编来了解一下吧。在实时数据世界里,为什么我们还这么执着于Hadoop? 根据451 Research调查数据显示,围绕批处理架构的Hadoop仍然是大数据的代表技术,尽管其声誉仍然超过实际部署情况。下面我...

2019-12-25 10:41:20 243

原创 什么是Hadoop 如何学习Hadoop

本篇文章大数据培训小编主要是想和大家分享一下什么是Hadoop,如何学习Hadoop,对大数据开发感兴趣的小伙伴就随着小编一起来了解一下吧。大数据培训Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high through...

2019-12-25 10:39:22 213

原创 解读大数据与Hadoop之间的关系

大数据,一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。随着它的重要性,越来越多的人开始学习大数据或者进行相关培训。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。但是很多人对大数据存在误解,下面就跟着小编来缕一缕大数据与Hadoop之间的关系。我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加...

2019-12-25 10:36:48 589

原创 Hadoop如何高效处理大数据

Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分布式系统基础架构,由Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。设想一个场景,假如您需要grep一个100TB的大数据文件,按照传统的方式,会花费很长时间,而这正是Hadoop所需要考虑的效率问题。关于Ha...

2019-12-25 10:35:07 1929

原创 大数据中Hadoop是什么?

提到大数据怎么可以不提Hadoop呢,Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对Hadoop失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可...

2019-12-24 12:09:05 675

原创 hadoop大数据基础概念解读(一)

前言:近几年大数据应用越来越火,各行各业都在利用大数据为自己服务,现在出去,如果说自己公司没用上大数据或者不知道点大数据的东西,感觉都不是IT的,那么今天小编就带大家从基础认识认识大数据。1 hadoop简介目前来看大数据应用当然有很多,hadoop,spark,mapR,EMC等一堆技术。今天我们来说说hadoop,简单来讲Hadoop是在分布式服务器集群上存储海量数据并运行分布式分...

2019-12-24 12:07:29 209

原创 扫盲:Hadoop分布式文件系统(HDFS)基础概念讲解!

无论你如何将Hadoop与Spark进行对比,无论Spark生态多么成熟和完善,其底层终归要基于HDFS,毕竟这是目前最成熟的分布式底层文件系统,几乎没有哪家公司愿意重新花费精力研发一个全新的文件系统。本文将讨论Hadoop分布式文件系统(HDFS)的基本概念以及管理HDFS的十大Hadoop Shell命令。HDFS是Apache Hadoop框架的底层文件系统,是一个分布式存储框架,跨越数...

2019-12-24 12:05:59 284

原创 大数据技术包含了什么?什么是Hadoop?

大数据顾名思义就是海量数据(PB级别以上)。当然咯,其中包括海量数据处理和海量数据存储。那么问题就来了?我们都知道,我们个人计算机一般磁盘容量为500G之余,运行内存4G、8G左右。根据计算机硬件要求,根本存储不了这些数据,更别说是处理这些数据了。那么根据这个问题,我们的大数据技术Hadoop随之而来。Hadoop有两个框架:分布式计算框架(MapReduce)和分布式存储(HDFS...

2019-12-24 12:04:15 432

原创 「大数据」带你进入 Apache Hadoop 之(HDFS架构)

Apache Hadoop项目为高可用、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个平台,它使用简单的编程模型让跨机器上大数据量的分布式计算变得简单。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身被设计用来在软件层面检测和处理故障,而不是依赖硬件来提供高可用性,因此,在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故...

2019-12-24 12:02:12 210

原创 hadoop大数据基础概念解读(二)

前言:上回我们介绍了hadoop的简介、组成等基础,那么,大数据框架中的一些常用的组件,名词等。又是什么意思呢?下面让小编带你一一了解。1 HDFSHDFS是分布式计算的存储基石,对于整个集群有单一的命名空间,具有数据一致性,适合一次写入多次读取的模型,客户端在文件没有被成功创建之前是无法看到文件存在的。文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且会根据配置由复制文件块...

2019-12-24 11:59:35 195

原创 大数据Hadoop,细数HDFS的那些概念(一)

HDFS是Hadoop中自带的分布式文件系统,并且是Hadoop工具的核心基础组件之一,今天,小编带大家对HDFS做一些深入的了解,对其内部概念进行阐述。一、namenode和datanode在HDFS中,每个服务器称之为一个节点。而所有的节点都分为两类,一个类是namenode,另一类是datanode。普通模式HDFS集群只有一个namenode和多个datanode,...

2019-12-24 11:36:19 171

原创 大数据学习:Hadoop中Hive原理及安装

Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。Hive是什么(官网概念)Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动...

2019-12-24 11:34:04 175

原创 目前围绕Hadoop体系的大数据架构,主要有哪几种,有什么优缺点?

随着大数据技术的发展,数据挖掘、数据探索等专有名词的曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:可以看到在BI系统里面,核心的模块是Cube。Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例...

2019-12-24 11:21:18 1069

原创 大数据处理架构Hadoop生态系统,在各个模块的作用是什么?

学习之前没搞清楚的知识传统的web应用(LAMP、JavaEE、NODE系等)与大数据什么关系? 之前一直以为大数据的东西就是来取代传统的Web应用的,其实并不是这样;即使是大数据的架构,应用层依然会是传统的web应用,但是会根据数据特点对数据存储(结构化数据依然会保存在传统的关系型数据库——如MySql,日志等非结构数据会保存在分布式文件系统——如Hadoop的HDFS)。 大数据的东西...

2019-12-21 14:22:08 2149

原创 Hadoop大数据平台架构与实践

Apache Hadoop软件库是一个框架,允许使用简单的编程模型,在计算机集群分布式地处理大型数据集。一、什么是Apache Hadoop?1.1 定义和特性可靠的、可扩展的、分布式计算开源软件。Apache Hadoop软件库是一个框架,允许使用简单的编程模型,在计算机集群分布式地处理大型数据集。它可以从单个服务器扩展到数千台机器,每个机器都提供本地计算和存...

2019-12-21 14:16:02 187

原创 十大国内外知名大数据专家探讨:Hadoop是生是死?

2017年,Gartner发布的《2017年数据管理技术成熟度曲线》将Hadoop掀上舆论巅峰,报告极其明显的标识出Hadoop即将在到达生产成熟期之前进入淘汰席。Gartner预测,到2018年,70%的Hadoop部署无法实现节约成本和收入增长的目标。在今年年初,Hadoop被列为2018年大数据领域的“渐冻”趋势之一,不少人将Hadoop称作“倒下的大象”,比如Lucidworks首席执...

2019-12-21 14:10:51 497

原创 大数据入门学习:Hadoop架构原理

前言本书是一本系统且极具实践指导意义的Hadoop工具书和参考书。内容全面,对Hadoop整个技术体系进行了全面的讲解,不仅包括HDFS和MapReduce这两大核心内容,而且还包括Hive、HBase、Mahout、Pig、 ZooKeeper、 Avro、 Chukwa 等与Hadoop相关的子项目的内容。实战性强,为各个知识点精心设计了大量经典的小案例,易于理解,可操作性强。由于文...

2019-12-21 14:08:24 928

原创 零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。今天就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备。狭义上,Hadoop就是单独指代Hadoop这个软件;广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件。Hadoop的起源1、200...

2019-12-21 14:04:18 97

原创 浅谈大数据与Hadoop有什么关系

随着信息化技术的日渐普及、宽带网络的快速兴起,以及云计算、移动互联和物联网等新一代信息技术的广泛应用,全球数据的增长速度进一步加快。与此同时,一批数据收集、存储、处理技术和应用快速发展并逐渐汇聚,那么下面由老师给大家介绍一下吧。1、认识大数据所谓大数据,就是从各种类型的数据中,快速获得有价值信息的能力。大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多...

2019-12-21 13:48:37 424

原创 全面解析大数据框架Hadoop主要模块

hadoop Common::包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。Hadoop Distributed File ...

2019-12-21 13:46:30 270

原创 大数据 Hadoop的生态系统和组件

Hadoop生态系统组件主要包括:MapReduce|HDFS|HBase|Hive|Pig|Zookeeper|MahoutMapReduce主要由Google Reduce而来,它简化了大型数据的处理,是一个并行的,分布式处理的编程模型。hadoop2.0它是基于YARN框架构建的。YARN的全称是Yet-Another-Resource-Negotiator。Yarn可以运用...

2019-12-21 13:42:38 468

原创 Hadoop教程:Hadoop在大数据中的角色

Henry和我正在进行一项检查大数据以及其真正意义的工作。大数据是一个流行语。和许多流行语一样,大数据这个词用得有些滥了,但是它包含了一些真正的有用性和技术。我们决定在这个主题上对大数据进行一番分析,努力挖掘其中的真实性以及它们对存储解决方案的意义。Henry用一个很好的介绍开始了这个系列。他对大数据的定义是我所见过的最好的定义。因此,我将重复这个定义:大数据是将数据变为信息然后变为知...

2019-12-21 13:40:56 145

原创 大数据之搭建HDFS分布式文件系统(Hadoop第一篇)

在大数下,Hadoop中的HDFS存储应用广范,为了写此篇文章,重新搭建了一回环境,带有命令及截图,有助于大家更好的参考,后面我会分享结合HDFS的基础上搭建HBase。有些同学可能还不知HDFS是什么,我先引用百科的描述介绍:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多...

2019-12-20 11:33:17 398

原创 大数据之Hadoop的数据库HBase的架构的详细讲解

HBase HBase即Hadoop DataBase,Hadoop的数据库,HBase是一种 "NoSQL" 数据库,即不是RDBMS ,不支持SQL作为主要访问手段。 Hbase它是基于hadoop的一个分布式数据库,即HBase是利用HDFS作为文件存储系统 特点 高可靠:因为是基于Hadoop的,Hadoop就具有高可靠,故HBase也具有高可靠性。 ...

2019-12-20 11:28:43 633

原创 深入解读大数据框架Hadoop之HDFS架构

Hadoop分布式文件系统(HDFS)是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异是值得我们注意的:HDFS具有高度容错能力,旨在部署在低成本硬件上。(高容错)HDFS提供对数据的高吞吐量访问,适用于具有海量数据集的应用程序。(高吞吐量)HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。(流式访问)HDFS...

2019-12-20 11:27:13 263

原创 大数据技术:Hadoop 之 NameNode 元数据原理

在对NameNode节点进行格式化时,调用了FSImage的saveFSImage()方法和FSEditLog.createEditLogFile()存储当前的元数据。Namenode主要维护两个文件,一个是fsimage,一个是editlog。作者:猫给这儿fsimage :保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块...

2019-12-20 11:25:07 334

原创 6.大数据技术之hadoop体系(HDFS、YARN)

HDFS的体系结构NameNode: HDFS的主要管理者;接受客户端的请求,比如说,将本地文件上传到HDFS上;维护文件的元信息(fsimage文件)和操作日志(edit文件)文件的元信息(fsimage文件):一个文件上传到HDFS上,文件会被切成一份份的数据块,记录这些数据块的文件就是文件的元信息打开虚拟机,进入 ~/training/hadoop-2.7.3/tm...

2019-12-20 11:21:34 699

原创 大数据之搭建HIVE数据仓库分析系统(Hadoop第四篇)

前言:前面的文章介绍了Hadoop的HDFS,YARN,SSH设置,本篇将承接上面的配置,继续介绍Hadoop相关的HIVE工具,本篇将从HIVE的介绍,下载,安装,启动,测试等一连串进行截图讲解,本篇采用Mysql做元数据测试,希望大家喜欢。一、HIVE简介hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分...

2019-12-20 11:16:45 1124

原创 大数据系列之Hadoop一般用在哪些业务场景

大数据Hadoop Hadoop可以做大数据量存储,它是分布式,可以存储离线的数据,不需要实时性的数据,就像云盘,网盘那样,你用的时候,可以直接读取就行。 你也可以将历史数据存储在Hadoop上,通过整体来分析数据,比抽样的数据要全,更可靠。 还可以处理大型文件,比如PB级别的,因为它的HDFS是分布式存储数据的,它会将数据按块来进行存储,一般是128M,现在3.0是...

2019-12-20 11:14:32 492

原创 Hadoop 系列之 HDFS

欢迎大家持续关注我,为大家奉上大数据技术文章。花絮上一篇文章 Hadoop 系列之 1.0和2.0架构 中,提到了 Google 的三驾马车,关于分布式存储,计算以及列式存储的论文,分别对应开源的 HDFS,Mapreduce以及 HBase。这里的 HDFS 是分布式文件系统,主要用于数据的存储。它的应用非常广泛,作为一款开源的文件系统,其高容错性、可靠性以及可部署在廉价机器上的特点...

2019-12-20 11:10:09 83

原创 大数据学习之Hadoop环境搭建

一、Hadoop的优势1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3) 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。二、...

2019-12-20 11:07:30 196

原创 大数据教程之Hadoop的shuffle过程

本篇文章小编主要是和大家分享一下Hadoop的shuffle过程,对大数据感兴趣想要学习或者是想要加入到大数据行业的小伙伴们就随小编一起来看一下吧。大数据视频教程Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程,这一段应该是Hadoop中最核心的部分,因为涉及到Hadoop中最珍贵的网络资源,所以shuffle过程中会有很多可以调节的参数,也有很多策略可...

2019-12-20 11:05:25 212

原创 连你也能看懂的大数据之Hadoop——Hbase,得之幸之

通过之前的介绍,我们了解了Hadoop框架下两个核心技术,我们发现这两个核心技术有一个共同的不足:操作数据延时性较高,不适合实时操作的场景。那么今天我们来看看Hadoop框架下可以实现实时读写访问的组件——Hbase。工程师什么是Hbase?晓智Hbase全称为Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC...

2019-12-14 14:18:49 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除