![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop技术
懒笑翻
这个作者很懒,什么都没留下…
展开
-
8.4 MapReduce 三大组件(二):Sort
任务目的理解流量统计项目案例的业务逻辑 学会利用 WritableComparable 接口实现自定义排序 掌握流量统计项目案例 Map 和 Reduce 端的自定义业务逻辑的编写 熟记 MapReduce Driver 端编程规范任务清单任务1:流量统计项目案例 任务2:WritableComparable 排序 任务3:MapReduce 编程详细任务步骤任务1:流量统计项目案例 (1)数据样例13726238888 2481 24681 13560436666转载 2020-08-09 13:12:19 · 410 阅读 · 0 评论 -
8.3 MapReduce 中的序列化(二)
任务目的理解流量统计项目案例的业务逻辑 掌握流量统计项目案例 Map 端的自定义业务逻辑的编写 掌握流量统计项目案例 Reduce 端的自定义业务逻辑的编写 熟记 MapReduce Driver 端编程规范任务清单任务1:流量统计项目案例 任务2:Map 端程序编写 任务3:Reduce 端程序编写 任务4:Driver 端程序编写详细任务步骤任务1:流量统计项目案例 (1)数据样例13726238888 2481 24681 13560436666 1116 9转载 2020-08-06 12:59:53 · 318 阅读 · 0 评论 -
8.2 MapReduce 中的序列化(一)
任务目的了解序列化和反序列化的概念和作用 理解 Java 的序列化和反序列化实现 可以自定义对象实现 MapReduce 框架的序列化任务清单任务1:序列化概述 任务2:Java 序列化 任务3:实现 MapReduce 框架的序列化详细任务步骤任务1:序列化概述序列化(Serialization):是指把结构化对象(Object)转化为字节流(ByteStream)。 反序列化(Deserialization):是序列化的逆过程。即把字节流转回结构化对象。图1转载 2020-08-06 12:59:10 · 494 阅读 · 0 评论 -
8.1 Shuffle 工作机制
任务目的理解 Shuffle 的概念和作用 理解 Map 端 Shuffle 的详细过程 理解 Reduce 端 Shuffle 的详细过程任务清单任务1:Shuffle 简介 任务2:Shuffle 主要流程 任务3:Map 端的 Shuffle 过程 任务4:Reduce 端的 Shuffle 过程详细任务步骤任务1:Shuffle 简介 在 Hadoop 中数据从 Map 阶段传递给 Reduce 阶段的过程就叫 Shuffle,Shuffle 机制是整个 MapRed转载 2020-08-06 12:57:25 · 675 阅读 · 0 评论 -
7.5 MapReduce程序的核心运行机制
任务目的知晓客户端对 Map 阶段并行度的规划 掌握 FileInputFormat 的默认切片机制 掌握手动设置 ReduceTask 数量的方法 理解 MapReduce 程序的运行流程任务清单任务1:MapTask 并行度决定机制 任务2:ReduceTask 并行度决定机制 任务3:MapReduce 程序的运行流程详细任务步骤任务1:MapTask 并行度决定机制1.1 MapTask 并行度 MapTask 并行度决定 Map 阶段的任务处理并发度,进而影响到转载 2020-08-06 12:55:30 · 261 阅读 · 0 评论 -
7.4 WordCount示例编写(三)
任务目的掌握 MapReduce 程序运行模式 理解 Combiner 的作用和使用方式任务清单任务1:MapReduce 程序运行模式 任务2:MapReduce 三大组件(一):Combiner详细任务步骤任务1:MapReduce 程序运行模式 1. 本地运行模式(eclipse 开发环境下本地运行, 好处是方便调试和测试)要点一: MapReduce 程序是被提交给 LocalJobRunner 在本地以单进程的形式运行 要点二: 数据输入输出可以在本地,也可以在 H转载 2020-08-06 12:54:47 · 498 阅读 · 0 评论 -
7.3 WordCount示例编写(二)
任务目的理解 WordCount 示例的业务逻辑 掌握 MapReduce Reduce 端编程规范 理解 WordCount 示例 Reduce 端的自定义业务逻辑的编写 熟记 MapReduce Driver 端编程规范任务清单任务1:WordCount Reduce 端程序编写 任务2:WordCount Driver 端程序编写详细任务步骤首先回顾一下 WordCount 示例的业务逻辑: MapTask 阶段处理每个数据分块的单词统计分析,思路是将每一行文本拆分成一个转载 2020-08-06 12:54:04 · 778 阅读 · 0 评论 -
7.2 WordCount示例编写(一)
任务目的理解 WordCount 示例的业务逻辑 掌握 MapReduce Map 端编程规范 理解 WordCount 示例 Map 端的自定义业务逻辑的编写任务清单任务1:WordCount 的业务逻辑 任务2:WordCount Map 端程序编写详细任务步骤任务1:WordCount 的业务逻辑 MapTask 阶段处理每个数据分块的单词统计分析,思路是将每一行文本拆分成一个个的单词,每遇到一个单词则把其转换成一个 key-value 对,比如单词 Car,就转换成<转载 2020-08-06 12:53:00 · 753 阅读 · 0 评论 -
7.1 MapReduce简介
任务目的理解 MapReduce 的概念 掌握 MapReduce 程序运行的步骤 掌握 MapReduce 编程规范任务清单任务1:MapReduce概述 任务2:MapReduce 程序运行演示 任务3:MapReduce 示例编写规范详细任务步骤任务1:MapReduce概述 1. 什么是MapReduce? 重温 Hadoop 四大组件:HDFS:分布式文件系统 MapReduce:分布式运算编程框架 YARN: Hadoop 的资源调度系统 Commo转载 2020-08-06 12:52:16 · 202 阅读 · 0 评论 -
6.4 Java API 操作 HDFS 文件(三)
任务目的学会使用 Java API 删除指定的 HDFS 文件或目录 学会使用 Java API 查看指定 HDFS 目录下所有文件信息和对应块信息任务清单任务1:删除文件/目录 任务2:查看指定路径中文件和块信息详细任务步骤任务1:删除文件/目录 通过FileSystem.delete(Path f,Boolean recursive)可删除指定的 HDFS 文件或目录,其中f为需要删除文件或目录的完整路径,recursive用来确定是否进行递归删除,若是删除文件则为...转载 2020-08-06 12:51:31 · 434 阅读 · 0 评论 -
6.3 Java API 操作 HDFS 文件(二)
任务目的学会使用 Java API 将 HDFS 文件下载到本地指定位置 掌握对 HDFS 文件或目录重命名的使用方法 学会使用 Java API 查看指定 HDFS 中某个目录下所有的文件或文件夹任务清单任务1:下载文件 任务2:重命名文件/目录 任务3:查看文件/目录状态详细任务步骤任务1:创建目录 通过FileSystem.copyToLocalFile(Path src,Patch dst)可将 HDFS 文件下载到本地的指定位置上,其中src和dst均为文件的...转载 2020-08-06 12:50:54 · 447 阅读 · 0 评论 -
6.2 Java API 操作 HDFS 文件(一)
任务目的了解 junit 的作用和常用注解 掌握使用 Java API 在 HDFS 上创建目录的方法 学会使用 Java API 将本地文件上传到 HDFS 指定位置任务清单任务1:创建目录 任务2:上传文件详细任务步骤 junit 是什么? junit 是一个 Java 语言的单元测试框架,用于编写和运行可重复的测试。 junit 能做什么? 能让我们快速完成单元测试。简化单元测试,写一点测一点,在编写以后的代码中如果发现问题可以较快的追踪到问题的原因,减小回归错误转载 2020-08-05 23:37:40 · 412 阅读 · 0 评论 -
6.1 Eclipse 连接 Hadoop
任务目的掌握在 Linux 下 Eclipse 连接 Hadoop 的详细步骤 掌握获取 fs 对象的两种方式任务清单任务1:Linux 下 Eclipse 连接 Hadoop 任务2:FileSystem 实例获取详细任务步骤任务1:Linux 下 Eclipse 连接 Hadoop 1. 首先启动 Hadoop 集群; 2. 下载并安装 Eclipse 开发工具,此平台在 /root/software 目录下已经为大家安装好了 Eclipse,所以无需再重复安装; 3.转载 2020-08-05 23:36:27 · 1750 阅读 · 0 评论 -
5.1 HDFS 工作机制
任务目的掌握 HDFS 集群三大重要角色的主要工作职责 理解 HDFS 写数据的详细流程 理解 HDFS 读数据的详细流程任务清单任务1:HDFS 概述 任务2:HDFS 写数据流程 任务3:HDFS 读数据流程详细任务步骤任务1:HDFS 概述 1. HDFS 集群分为三大角色:NameNode、DataNode、SecondaryNameNode。 2. NameNode 负责管理整个文件系统的元数据(简单的说,元数据就是描述文件的数据,如文件名、目录名、文件大小、文.转载 2020-08-05 01:04:45 · 222 阅读 · 0 评论 -
4.3 HDFS 安全模式
任务目的了解什么是安全模式,知晓集群在安全模式下能做什么工作 掌握集群进入和退出安全模式的三种情况 掌握集群在正常冷启动时进入安全模式的原理任务清单任务1:安全模式简介 任务2:进入安全模式的三种情况 任务3:退出安全模式的三种方式详细任务步骤任务1:安全模式简介 问题场景: 集群启动后,可以查看目录,但是上传文件时报错,打开 Web 页面可看到 NameNode 正处于 SafeMode 状态,怎么处理? SafeMode 是 NameNode 的一种特殊状态(A转载 2020-08-05 01:03:52 · 221 阅读 · 0 评论 -
4.2 HDFS 副本存放策略
任务目的了解 HDFS 副本存放策略的作用 理解 DataNode 网络拓扑图 知晓查看集群机架及其节点情况的命令 熟记 HDFS 副本存放策略任务清单任务1:副本存放策略的作用 任务2:机架感知 任务3:HDFS 副本存放策略基本思想详细任务步骤任务1:副本存放策略的作用 HDFS 作为 Hadoop 中的一个分布式文件系统,而且是专门为它的 MapReduce 设计,所以 HDFS 除了必须满足自己作为分布式文件系统的高可靠性外,还必须为 MapReduce 提供高效的读转载 2020-08-05 01:03:09 · 1414 阅读 · 0 评论 -
4.1 心跳机制和垃圾回收机制
任务目的了解心跳机制流程 知晓 NameNode 感知 DataNode 掉线死亡的时长计算公式 学会在配置文件中设置心跳机制 掌握开启 HDFS 垃圾回收机制的方法任务清单任务1:Hadoop 心跳机制 任务2:垃圾回收机制详细任务步骤任务1:Hadoop 心跳机制1.1 心跳机制简介 现在有这样一个应用场景: 在长连接下,有可能很长一段时间都没有数据往来。理论上说,这个连接是一直保持连接的,但是实际情况中,如果中间节点出现什么故障是难以知道的。更要命的是,有的节点转载 2020-08-05 01:02:16 · 793 阅读 · 0 评论 -
3.4 HDFS 的 Shell 操作(二)
任务目的掌握查看 HDFS 文本内容的相关命令 学会往 HDFS 文件中追加内容和合并下载 HDFS 的多个文件到本地文件系统 掌握修改 HDFS 文件权限和拥有者的相关命令 掌握统计指定目录和文件系统信息的方法 学会使用 HDFS Shell 命令修改文件或目录的副本数任务清单任务1:查看文本内容命令 任务2:追加和合并文本内容命令 任务3:修改权限命令 任务4:统计命令 任务5:设置副本命令详细任务步骤任务1:查看文本内容命令1. cat 命令 cat命...转载 2020-08-05 01:01:09 · 1216 阅读 · 0 评论 -
3.3 HDFS 的 Shell 操作(一)
任务目的掌握 Hadoop 集群管理脚本的使用方式 学会使用help命令查看指定命令的帮助信息 掌握操作 HDFS 文件或目录常用命令的使用方式任务清单任务1:Hadoop 集群管理脚本 任务2:HDFS 管理命令 fs 任务3:操作 HDFS 文件或目录命令详细任务步骤任务1:Hadoop 集群管理脚本 Shell 在计算机科学中俗称“壳”,是提供给使用者使用界面的进行与系统交互的软件,通过接收用户输入的命令执行相应的操作。 $HADOOP_HOME/bin ...转载 2020-08-05 01:00:10 · 677 阅读 · 0 评论 -
3.2 HDFS 架构
任务目的理解 HDFS 存储架构 熟知 HDFS 4个组成部分的主要职责任务清单任务1:HDFS 存储架构图 任务2:HDFS 组成结构详细任务步骤任务1:HDFS 存储架构图 HDFS采用主从架构(Master/Slave架构),这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和SecondaryNameNode。 一个HDFS集群是由一个NameNode和多个DataNode组成的。其中,NameNode是HDFS集群的主节点,转载 2020-08-05 00:58:48 · 406 阅读 · 0 评论 -
3.1 HDFS 简介
任务目的了解传统文件系统到分布式文件系统的演变过程 理解 HDFS 中重要角色的相关概念 理解 HDFS 的优缺点任务清单任务1:HDFS 的演变 任务2:HDFS 的基本概念 任务3:HDFS 特点详细任务步骤任务1:HDFS 的演变 HDFS 源于Google在2003年10月份发表的GFS(Google File System)论文,接下来从传统的文件系统入手,开始学习分布式文件系统,以及分布式文件系统是如何演变而来。 传统的文件系统对海量数据的处理方式是将数据文件转载 2020-08-05 00:57:12 · 1346 阅读 · 0 评论 -
2.4 Hadoop集群初体验
任务目的掌握启动 HDFS 集群和 YARN 集群的方式 进一步熟悉 HDFS 和 YARN 的 Web UI 界面 熟悉执行 MapReduce 程序的流程任务清单任务1:启动 Hadoop 集群 任务2:查看进程启动情况 任务3:WordCount 单词统计案例 任务4:PI 案例详细任务步骤任务1:启动 Hadoop 集群 在本平台上,虽然已经为大家搭建好了 Hadoop 伪分布式集群,但是并没有启动,所以在使用集群之前,需要依次启动HDFS 集群和YARN 集群,..转载 2020-07-04 16:01:54 · 628 阅读 · 0 评论 -
2.3 YARN伪分布式集群搭建
重点掌握 YARN 集群的相关配置 学会启动和关闭 YARN 集群的两种方式 能够使用 jps 命令查看进程的启动情况 能够通过 UI 查看 YARN 集群的运行状态任务清单任务1:YARN 集群主要配置文件讲解 任务2:YARN 集群测试任务步骤任务1:YARN 集群主要配置文件讲解1.1 配置环境变量yarn-env.sh 该文件是 YARN 框架运行环境的配置,同样需要修改 JDK 所在位置。我们可以使用如下命令打开“yarn-env.sh”文件:vim /root转载 2020-07-04 16:01:00 · 677 阅读 · 0 评论 -
2.2 HDFS伪分布式集群搭建
任务目的了解 Hadoop 集群的组成和规划 重点掌握 HDFS 集群的相关配置 掌握格式化文件系统的命令 学会启动和关闭 HDFS 集群的两种方式 能够使用 jps 命令查看进程的启动情况 能够通过 UI 查看 HDFS 集群的运行状态任务清单任务1:Hadoop 集群简介 任务2:安装包准备 任务3:HDFS 集群主要配置文件讲解 任务4:配置 Hadoop 系统环境变量 任务5:HDFS 集群测试任务步骤任务1:集群简介 Hadoop 集群具体来说包含两...转载 2020-07-04 15:59:32 · 510 阅读 · 0 评论 -
2.1 Linux系统环境准备
任务目的熟练安装 JDK 重点掌握配置 SSH 免密登录的方法任务清单任务1:安装 JDK 任务2:配置 SSH 免密登录任务步骤任务1:安装JDK1. 准备软件 JDK 的安装包已经为大家准备好,在 /root/software 目录下,可以使用如下命令进行查看:cd /root/software/ # 进入目录ll # 罗列出当前文件或目录的详细信息,是ls -l的别名图12. 解压压缩包tar -zxvf jdk-8u221-linux转载 2020-07-04 15:57:15 · 391 阅读 · 0 评论 -
1.4 离线分析系统结构概述
任务目的了解离线分析系统的宏观概念 理解离线分析系统的处理流程任务清单任务1:需求分析 任务2:数据处理流程 任务3:项目最终效果详细任务步骤任务1:需求分析1.案例名称 XX 网/XX app 点击流日志数据挖掘系统 网站分析的主要手段是分析网站的点击流数据。 XX 网/XX app 点击流日志数据挖掘系统 网站分析的主要手段是分析网站的点击流数据。 (1)点击流的概念 点击流( Click Stream)是指用户在网站上持续访问的轨迹。 这个转载 2020-07-04 07:24:01 · 1064 阅读 · 0 评论 -
1.3 分布式系统概述
任务目的理解集群、分布式和负载均衡的概念 理解集群、分布式的区别任务清单任务1:分布式集群 任务2:负载均衡详细任务步骤任务1:分布式集群 从开餐馆说起:你开了一家餐馆,自己掌勺后厨(即做菜)。随着生意越来越好,发现自己忙不过来。于是你聘请了两个厨师,你们三位厨师就是一个“集群”。主要的职责是:洗菜、配菜、炒菜。你们关系如下: 随着生意越来越好,两种方式增加后厨的生产力: (1)继续增加厨师——相当于扩大集群; (2)引入流水线的机制,精细化分工。找人分担厨.转载 2020-07-03 23:50:34 · 357 阅读 · 0 评论 -
1.2 Hadoop快速入门
任务目的重点掌握Hadoop的核心组件 了解Hadoop的发展历史及其生态体系 熟记Hadoop的主要特性任务清单任务1:Hadoop简介 任务2:Hadoop产生背景 任务3:Hadoop特性任务1:Hadoop简介 1. Hadoop 是 Apache 软件基金会旗下的一个开源的分布式计算平台。 2. Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理; “处理”什么问题? 海量数据的存储和海量数据的分析计算问题。也就是转载 2020-07-03 23:06:35 · 331 阅读 · 0 评论 -
1.1 大数据概论
1.1 大数据概论任务目的了解大数据的概念及其特征 熟悉大数据的典型应用场景 了解大数据部门的业务流程任务清单任务1:大数据概念 任务2:大数据特点 任务3:大数据应用场景 任务4:大数据发展前景 任务5:业务流程分析任务1:大数据概念何谓“大数据”(Big Data),“大数据”计量单位已经超过TB级别发展到PB、EB、ZB、YB甚至是BB级别。“大数据”是一个较为抽象的概念,至今尚无确切、统一的定义,各方对“大数据”给出了10余种不同的定义,比较典型的是:最...转载 2020-07-03 22:32:38 · 7334 阅读 · 0 评论