快速入门大数据
快速入门大数据笔记
一角残叶
人生如逆旅,我亦是行人
展开
-
Hadoop 整体介绍
1 分布式文件系统 HDFSHDFS 是 GFS 的克隆版;HDFS特点 : 扩展性,容错性,海量数据存储;将文件切分为指定大小的数据块并以多副本的存储在多个机器;数据切分、多副本、容错等操作对用户是透明的;2 分布式资源调度系统 YARNYet Another Resource Negotiator负责整个集群资源的管理和调度YARN 特点: 扩展性,容错性,多框架资源统一...原创 2018-10-29 09:40:31 · 173 阅读 · 0 评论 -
HDFS介绍
1 HDFS 介绍Hadoop Distributed File System运行在普通廉价的机器上2 HDFS 架构一个Master(NameNode) 配 多个 slaves(DataNode)一个文件会被拆分成多个 Block,blocksize:128M2.1 NameNode客户端请求响应元数据(文件的名字,副本,Block存放的DataNode地址)管理s...原创 2018-10-29 16:40:52 · 417 阅读 · 0 评论 -
分布式资源调度框架 ——YARN
1 YARN 产生背景MapReduce1.x 存在的问题:单点故障和 节点压力大不易扩展;Hadoop1.x 时,MapReduce -> Master/Slave 架构,1个 JobTracker 带多个原创 2018-10-29 22:22:30 · 425 阅读 · 0 评论 -
分布式处理框架——MapReduce
1 MapReduce 优点海量数据离线处理;易开发,易运行;2 MapReduce 编程模型将作业拆分成 Map 阶段和 Reduce 阶段Map阶段: Map TasksReduce阶段: Reduce Tasks2.1 wordcount 案例2.2 核心概念Split: 交由 MapReduce 作业来处理的数据块,是MapReduce 中最小的计算单元...原创 2018-10-30 11:13:13 · 398 阅读 · 0 评论 -
Hadoop项目练习
1 数据处理原创 2018-10-30 15:40:20 · 4241 阅读 · 2 评论 -
Hadoop 分布式集群搭建
1 修改配置文件1.1 hadoop-env.shexport JAVA_HOME=/usr/apps/jdk1.8.0_181-amd641.2 core-site.xml <property> <name>fs.default.name</name> <value>hdfs://node1:8020<...原创 2018-10-30 19:20:39 · 239 阅读 · 0 评论 -
大数据扩展
1 Hadoop 生态圈对比 Spark BDAS2 Hadoop 对比 Spark原创 2018-10-30 23:03:09 · 929 阅读 · 0 评论