快速入门大数据
快速入门大数据笔记
一角残叶
人生如逆旅,我亦是行人
展开
-
Hadoop 整体介绍
1 分布式文件系统 HDFS HDFS 是 GFS 的克隆版; HDFS特点 : 扩展性,容错性,海量数据存储; 将文件切分为指定大小的数据块并以多副本的存储在多个机器; 数据切分、多副本、容错等操作对用户是透明的; 2 分布式资源调度系统 YARN Yet Another Resource Negotiator 负责整个集群资源的管理和调度 YARN 特点: 扩展性,容错性,多框架资源统一...原创 2018-10-29 09:40:31 · 178 阅读 · 0 评论 -
HDFS介绍
1 HDFS 介绍 Hadoop Distributed File System 运行在普通廉价的机器上 2 HDFS 架构 一个Master(NameNode) 配 多个 slaves(DataNode) 一个文件会被拆分成多个 Block,blocksize:128M 2.1 NameNode 客户端请求响应 元数据(文件的名字,副本,Block存放的DataNode地址)管理 s...原创 2018-10-29 16:40:52 · 425 阅读 · 0 评论 -
分布式资源调度框架 ——YARN
1 YARN 产生背景 MapReduce1.x 存在的问题:单点故障和 节点压力大不易扩展; Hadoop1.x 时,MapReduce -> Master/Slave 架构,1个 JobTracker 带多个原创 2018-10-29 22:22:30 · 436 阅读 · 0 评论 -
分布式处理框架——MapReduce
1 MapReduce 优点 海量数据离线处理; 易开发,易运行; 2 MapReduce 编程模型 将作业拆分成 Map 阶段和 Reduce 阶段 Map阶段: Map Tasks Reduce阶段: Reduce Tasks 2.1 wordcount 案例 2.2 核心概念 Split: 交由 MapReduce 作业来处理的数据块,是MapReduce 中最小的计算单元...原创 2018-10-30 11:13:13 · 410 阅读 · 0 评论 -
Hadoop项目练习
1 数据处理原创 2018-10-30 15:40:20 · 4251 阅读 · 2 评论 -
Hadoop 分布式集群搭建
1 修改配置文件 1.1 hadoop-env.sh export JAVA_HOME=/usr/apps/jdk1.8.0_181-amd64 1.2 core-site.xml <property> <name>fs.default.name</name> <value>hdfs://node1:8020<...原创 2018-10-30 19:20:39 · 246 阅读 · 0 评论 -
大数据扩展
1 Hadoop 生态圈对比 Spark BDAS 2 Hadoop 对比 Spark原创 2018-10-30 23:03:09 · 933 阅读 · 0 评论