Hadoop学习笔记
文章平均质量分 90
X6ZT
非专业产品经理
展开
-
Hadoop学习笔记: MapReduce(2)
一. 切片与MapTask并行度决定机制现有如下的问题: 1G的数据, 启动8个MapTask, 可以提高集群的并发处理能力. 那么1K的数据, 如果也启动8个MapTask, 会提高集群性能吗? MapTask并行任务是否是越多越好呢? 哪些因素影响了MapTask并行度?MapTask并行度决定机制首先需要区分两个概念:1.数据块: 数据块(Blocks)是HDFS物理上把数据分成不同的块. 数据块是HDFS的存储数据单位2.数据切片:数据切片只是在逻辑上对输入进行分片, 并不会在...原创 2022-02-07 09:22:37 · 1003 阅读 · 0 评论 -
Hadoop学习笔记: MapReduce(1)
一. MapReduce核心思想1) 分布式运算程序往往需要分成Map和Reduce两个阶段2) 第一个阶段的MapTask并发实例, 完全并行运行, 互不相干3) 第二个阶段的ReduceTask并发实例同样互不相干, 但它们的数据依赖于上一个阶段的所有MapTask并发实例的输出4) MapReduce编程模型只能包含一个Map和一个Reduce阶段, 如果用户的业务逻辑非常复杂, 那就只能多个MapReudce程序串行执行MapReduce进程一个完整的MapReduce程序在分原创 2022-01-09 15:54:39 · 585 阅读 · 0 评论 -
Hadoop学习笔记: HDFS(2)
一. HDFS写数据流程1) 客户端创建一个分布式文件系统(Distributed File System)模块向NameNode发送上传文件的请求, NameNode检查目标文件是否存在, 客户端请求的父目录是否存在2) NameNode返回是否可以上传文件的消息3) 客户端向NameNode发送上传第一个块的请求, 同时要求返回上传的DataNode位置4) NameNode返回可以上传的3个节点5)客户端通过FSDataOutputStream模块向DataNode1发送建立传输通..原创 2021-12-07 17:25:24 · 1190 阅读 · 0 评论 -
Hadoop学习笔记: HDFS(1)
一. HDFS概述HDFS组成架构NameNode(nn) 是整个集群的管理. 管理HDFS的名称空间, 配置副本策略, 数据块(Block)映射信息以及处理客户端读写请求.DataNode 是下属的工作组, 当NameNode下达命令时, 由DataNode来实际执行命令: 存储实际的数据块, 以及执行数据块的读/写操作Client也即客户端, 是用户的操作端. 主要承担以下任务:> 文件切分. 用户将文件上传至HDFS时, Client将文件切分成Block进行上传...原创 2021-12-06 20:00:52 · 132 阅读 · 0 评论 -
Hadoop学习笔记: 入门(2)
一.SSH无密登录配置一般情况下, 从一台主机访问另一台未配置过SSH的主机时, 需要输入root账号的密码, 这会在进行集群操作时造成很大的不便. 这时, 便需要对主机进行SSH无密登录配置.ssh连接另一主机语法:[atguigu@hadoop102 ~]$ ssh @hostname免密登录原理如下所示, 如果需要从A无密访问B, 则需要在A上对B进行ssh免密配置. 此时, A会生成一对密钥, 分别是公钥和密钥. 公钥会分发给外部主机, 也即B服务器, 用于给外部服务器..原创 2021-12-06 17:19:38 · 1695 阅读 · 0 评论 -
Hadoop学习笔记: 入门(1)
*学习过程中使用VMware进行多台服务器的搭建, 全程在一台主机上进行一. Hadoop运行环境搭建配置环境变量(JAVA, Hadoop)为何需要配置环境变量?例如JDK, 程序都集中的放置在Java安装目录下的bin目录下,那么,当你需要执行这些程序时,你需要告诉系统在哪个目录下寻找,只有你告诉系统正确的目录,系统才可以给你提供这一系列的命令供你使用。环境变量的配置就是做这么一个工作。那么,将该目录做成一个变量放置到系统的内置变量PATH中是一个不错的选择。配置环境变量步骤原创 2021-11-26 20:26:58 · 1158 阅读 · 0 评论