![](https://img-blog.csdnimg.cn/2020041222472529.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop
大数据之Hadoop的学习
風再起时
抱着沙发 睡眼昏花 凌乱头发
夕阳西下 接通电话 是你呀
展开
-
(二)Flink环境搭建与Flink开发WordCount案例
一、Flink在IDEA上的环境配置Flink在IDEA上的开发是创建的maven项目,IDEA上maven的配置方法不在介绍,可自行参考网上资料进行配置maven环境。1、打开IDEA,创建一个maven工程:file->new->project->Maven->Next2、设置GroupId和ArtifacId:注意Version使用1.0继续创建项...原创 2020-04-15 19:29:01 · 1401 阅读 · 4 评论 -
HDFS 概述(二)
HDFS体系架构与数据读写1、HDFS 整体架构2、HDFS 数据复制3、HDFS读取和写入数据1)读取流程2)写入流程1、HDFS 整体架构HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode,这是一个 Master Server,用来管理文件系统的命名空间,以及调节客户端对文件的访问。一个 HDFS 集群还包括多个 DataNode,用来存储数据。HDFS 的整体结构如下图所示:HDFS 会对外暴露一个文件系统命名空间,并允许用户数据以文件的原创 2020-05-25 19:22:51 · 299 阅读 · 0 评论 -
HDFS 概述(一)
Hadoop 重点之 HDFS 1、HDFS 简介2、HDFS 的基本思想3、HDFS 的设计理念4、HDFS 的局限1、HDFS 简介HDFS是Hadoop的一个分布式文件系统,也是指被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,HDFS和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数原创 2020-05-25 17:01:23 · 352 阅读 · 0 评论 -
Hadoop概述
1、Hadoop 系统简介 Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。 Hadoop 采用 MapReduce 分布式计算框架,根据 GFS 原理开发了 HDFS(分布式文件系统),并根据 BigTable 原理开发了 HBase 数据存储系统。 Hadoop 和 Google 内部使用的分布式计算系统原理相同,其开源特性使其成为分布式计算系统的事实上的国际标准。 Yahoo、F原创 2020-05-24 22:34:43 · 968 阅读 · 0 评论 -
MapReduce的shuffle在面试的时候会问的几点
MapReduce的shuffle在大数据开发面试时会问的几点1.map为什么输出到环型缓冲区,为什么叫环型缓冲区?2.为什么在缓冲区输出的时候进行排序?3.combiner的作用,运行原理?4.reduce拉取过来的数据为什么放在buffer?5.为什么reducer输入的数据必须在硬盘上?直接放在内存里面不就不用排序了吗?6.MapReduce的map和reduce如果没有自己的实现类,那能运...原创 2020-04-09 16:33:04 · 315 阅读 · 0 评论