Hadoop
文章平均质量分 82
大数据技术栈
chaser&upper
西电CS研究生,CSDN专家博主&人工智能领域优质创作者,全网粉丝20w+,热爱生活,喜欢分享,欢迎您与我交流!商务合作,请私信沟通。
展开
-
HDFS的基本操作-常用shell命令
Hadoop 常用shell命令|-lsr |-lsr <路径> | 递归查看指定路径的目录结构| |-du |-du <路径> | 统计目录下个文件大小| |-dus |-dus <路径> | 汇总统计目录下文件(夹)大小| |-count| -count [-q] <路径> | 统计文件(夹)数量| |-mv |-mv <源路径> <目的路径> | 移动| |-cp |-cp <源路径> <原创 2022-05-22 14:31:32 · 480 阅读 · 0 评论 -
【大数据开发技术】期末押题(暨考试题)
【大数据开发技术】期末押题选择10道选择10道配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。hadoop-env.shHDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?一次写入,多次读下列哪个程序通常与NameNode 在同一个节点启动?Jobtracker更改NameNode访问地址的配置文件是哪个?core-site.xml格式化HDFS的命令是哪个?hdfs原创 2021-12-26 18:43:40 · 3565 阅读 · 0 评论 -
【大数据开发技术】期末复习(不挂科)
考前秘籍文档1 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中。hadoop-env.sh2 HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是哪些?一次写入,多次读3 下列哪个程序通常与NameNode 在同一个节点启动?Jobtracker4 更改NameNode访问地址的配置文件是哪个?core-site.xml5 格式化HDFS的命令是哪个?hdfs namenode–format原创 2021-12-23 11:34:41 · 5286 阅读 · 2 评论 -
Hadoop 概念扩展
Hadoop 概念扩展Hadoop生态系统HDFS 读写流程& 高可用Hadoop发行版的选择大数据产品与互联网产品结合大数据应用--数据分析数据分析案例课程目标:知道hadoop生态组成了解hdfs读写流程说出Hadoop发行版本的选择Hadoop生态系统狭义的Hadoop VS 广义的Hadoop广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分,生态系统中每一子系统只解决某一个特定的问题域(甚至可原创 2021-12-02 10:09:36 · 256 阅读 · 0 评论 -
MapReduce 实战
MapReduce实战MapReduce实战利用MRJob编写和运行MapReduce代码运行MRJOB的不同方式mrjob 实现 topN统计(实验)MRJOB 文件合并MapReduce原理详解MapReduce架构MapReduce实战利用MRJob编写和运行MapReduce代码mrjob 简介使用python开发在Hadoop上运行的程序, mrjob是最简单的方式mrjob程序可以在本地测试运行也可以部署到Hadoop集群上运行如果不想成为hadoop专家, 但是需要利用Hadoo原创 2021-12-02 10:04:49 · 817 阅读 · 0 评论 -
分布式处理框架 MapReduce
分布式处理框架 MapReduce什么是MapReduceMapReduce编程模型Hadoop Streaming 实现wordcount (实验 了解)什么是MapReduce源于Google的MapReduce论文(2004年12月)Hadoop的MapReduce是Google论文的开源实现MapReduce优点: 海量数据离线处理&易开发MapReduce缺点: 实时流式计算MapReduce编程模型MapReduce分而治之的思想数钱实例:一堆钞票,各种面值分别原创 2021-12-02 09:59:34 · 429 阅读 · 0 评论 -
资源调度框架 YARN
YARN&MapReduce资源调度框架 YARN什么是YARNYARN产生背景YARN的架构和执行流程YARN环境搭建课程目标:了解YARN概念和产生背景了解MapReduce概念说出YARN执行流程说出MapReduce原理独立完成Mrjob实现wordcount完成提交作业到YARN上执行资源调度框架 YARN什么是YARNYet Another Resource Negotiator, 另一种资源协调者通用资源管理系统为上层应用提供统一的资源管理和调度,为集群在原创 2021-12-02 09:57:13 · 234 阅读 · 0 评论 -
分布式文件系统 HDFS
分布式文件系统 HDFSHDFS的使用HDFS shell操作HDFS shell操作练习HDFS设计思路HDFS架构HDFS环境搭建课程目标:知道什么是hdfs说出hdfs的架构能够掌握hdfs的环境搭建能够掌握hdfs shell的基本使用知道hdfs shell的优缺点HDFS的使用启动HDFS来到$HADOOP_HOME/sbin目录下执行start-dfs.sh[hadoop@hadoop00 sbin]$ ./start-dfs.sh可以看到 nameno原创 2021-12-02 09:54:11 · 482 阅读 · 0 评论 -
Hadoop 概述
Hadoop 概述Hadoop概述1.1 什么是Hadoop1.2 Hadoop核心组件1.3 Hadoop优势Hadoop概述课程目标:知道Hadoop的概念及发展历史说出hadoop的核心组件知道hadoop的优势1.1 什么是HadoopHadoop名字的由来作者:Doug cuttingHadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Hadoop的概念:Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展原创 2021-12-02 09:49:39 · 1433 阅读 · 0 评论 -
大数据生态课堂纪要
大数据生态课堂纪要Hadoop 概念Hadoop组件HDFSyarn 架构MapReduceHadoop发型版本选择Hadoop 概念分布式的计算框架 可靠 可扩展可扩展 集群可以上万台,分布式计算 分布式存储可靠high-availability(HA)Hadoop可以做啥:数据仓库数据库一般只保存数据的最新状态,极个别重要的值会保存历史版本数据仓库 会保存所有的历史版本 只记录 很少更新 删除PB级数据的存储 处理 分析 统计日志分析数据挖掘BI原创 2021-12-02 09:44:55 · 191 阅读 · 0 评论 -
【Hadoop高可用】HA 开发常用Linux命令
HA 开发常用Linux命令手动故障转移配置手动故障转移配置在module文件夹下,新建HA目录:mkdir HA拷贝hadoop文件夹到HA中:cp -r hadoop-2.7.2/ HA/原创 2021-10-12 21:42:19 · 306 阅读 · 0 评论 -
【建议收藏】大数据技术之 Hadoop(生产调优手册)
大数据技术之 Hadoop(生产调优手册)1. HDFS—核心参数1.1 NameNode 内存生产配置1.2 NameNode 心跳并发配置1.3 开启回收站配置2. HDFS—集群压测2.1 测试 HDFS 写性能2.2 测试 HDFS 读性能3. HDFS—多目录3.1 NameNode 多目录配置3.2 DataNode 多目录配置3.3 集群数据均衡之磁盘间数据均衡4. HDFS—集群扩容及缩容4.1 添加白名单4.2 服役新服务器4.3 服务器间数据均衡4.4 黑名单退役服务器1. HDFS原创 2021-09-27 08:57:33 · 438 阅读 · 0 评论 -
【Hadoop大数据技术】Yarn 案例实操
Yarn 案例实操1. Yarn 生产环境核心参数配置案例1. Yarn 生产环境核心参数配置案例注:调整下列参数之前尽量拍摄 Linux 快照,否则后续的案例,还需要重写准备集群。1)需求:从 1G 数据中,统计每个单词出现次数。服务器 3 台,每台配置 4G 内存,4 核CPU,4 线程。2)需求分析:1G / 128m = 8 个 MapTask;1 个 ReduceTask;1 个mrAppMaster平均每个节点运行 10 个 / 3 台 ≈ 3 个任务(4 3 3)3)原创 2021-09-26 20:24:49 · 607 阅读 · 0 评论 -
【Hadoop开发】常用Linux命令整理
Linux 命令整理更改文件夹所属用户:sudo chown zs:zs module/ software/查看安装的Java版本:rpm -qa | grep -i java删除已安装的Java:rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps切换root用户:su root修改主机IP:vim /etc/sysconfig/network-scripts/ifcfg-ens33修改主机名称:vim /etc/hostname查看主机名称原创 2021-09-26 17:14:05 · 1096 阅读 · 0 评论 -
一文带你了解大数据技术之Hadoop(Yarn)
Yarn 资源调度器1. Yarn 基础架构2. Yarn 工作机制3. 作业提交全过程4. Yarn 调度器和调度算法4.1 先进先出调度器(FIFO)4.2 容量调度器(Capacity Scheduler)4.3 公平调度器(Fair Scheduler)5. Yarn 常用命令5.1 yarn application 查看任务5.2 yarn logs 查看日志5.3 yarn applicationattempt 查看尝试运行的任务5.4 yarn container 查看容器5.5 yarn n原创 2021-09-22 12:59:03 · 476 阅读 · 0 评论 -
【MapReduce】常见错误及解决方案
【MapReduce】常见错误及解决方案导包容易出错。尤其 Text 和 CombineTextInputFormat。Mapper 中第一个输入的参数必须是 LongWritable 或者 NullWritable,不可以是 IntWritable. 报的错误是类型转换异常。java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4),说明 Partition 和 ReduceTask 个数原创 2021-09-22 10:02:09 · 1659 阅读 · 0 评论 -
Hadoop 数据压缩
Hadoop 数据压缩1. 概述2. MR 支持的压缩编码3. 压缩方式选择3.1 Gzip 压缩3.2 Bzip2 压缩3.3 Lzo 压缩3.4 Snappy 压缩3.5 压缩位置选择4. 压缩参数配置5. 压缩实操案例5.1 Map 输出端采用压缩5.2 Reduce 输出端采用压缩1. 概述1)压缩的好处和坏处压缩的优点:以减少磁盘 IO、减少磁盘存储空间。压缩的缺点:增加 CPU 开销。2)压缩原则(1)运算密集型的 Job,少用压缩(2)IO 密集型的 Job,多用压缩2.原创 2021-09-22 09:52:06 · 341 阅读 · 0 评论 -
MapReduce 开发总结
MapReduce 开发总结1)输入数据接口:InputFormat2)逻辑处理接口:Mapper3)Partitioner 分区4)Comparable 排序5)Combiner 合并6)逻辑处理接口:Reducer7)输出数据接口:OutputFormat1)输入数据接口:InputFormat(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat 的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为 value 返回。(3)Combi原创 2021-09-20 20:19:01 · 351 阅读 · 0 评论 -
【MapReduce】数据清洗(ETL)
数据清洗(ETL)简介1)需求2)需求分析3)实现代码(1)编写 WebLogMapper 类(2)编写 WebLogDriver 类简介“ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库.在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行 Ma原创 2021-09-20 20:13:28 · 1642 阅读 · 0 评论 -
【MapReduce】Join 应用
MapReduce:Join 应用1. Reduce JoinReduce Join 案例实操TableBeanTableMapperTableReducerTableDriver2. Map JoinMap Join 案例实操MapJoinDriverMapJoinMapper1. Reduce JoinMap 端的主要工作:为来自不同表或文件的 key/value 对,打标签以区别不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。Reduce 端的主要原创 2021-09-20 20:09:35 · 388 阅读 · 0 评论 -
【MapReduce 内核源码解析】MapTask 工作机制
MapReduce 内核源码解析1. MapTask 工作机制2. ReduceTask 工作机制3. ReduceTask 并行度决定机制3.1 设置 ReduceTask 并行度(个数)3.2 实验:测试 ReduceTask 多少合适4. MapTask & ReduceTask 源码解析4.1 MapTask 源码解析流程4.2 ReduceTask 源码解析流程1. MapTask 工作机制(1)Read 阶段:MapTask 通过 InputFormat 获得的 RecordRea原创 2021-09-15 17:28:52 · 461 阅读 · 0 评论 -
【MapReduce 框架原理】OutputFormat 数据输出
OutputFormat 数据输出1. OutputFormat 接口实现类2. 自定义 OutputFormat 案例实操2.1 需求2.2 需求分析2.3 案例实操LogMapperLogReducerLogOutputFormatLogRecordWriterLogDriver1. OutputFormat 接口实现类OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat 接口。下面我们介绍几种常见的OutputFormat实现类原创 2021-09-15 17:05:37 · 446 阅读 · 0 评论 -
【MapReduce 框架原理】MapReduce 工作流程 & Shuffle 机制
【MapReduce 框架原理】1. MapReduce 工作流程2. Shuffle 机制2.1 Shuffle 机制2.2 Partition 分区2.3 自定义Partitioner步骤2.4 分区总结2.5 案例分析3. Partition 分区案例实操3.1 需求3.2 需求分析3.3 在案例 2.3 的基础上,增加一个分区类3.4 在驱动函数中增加自定义数据分区设置和 ReduceTask 设置4. WritableComparable 排序4.1 排序分类4.2 自定义排序 Writabl原创 2021-09-15 16:51:38 · 591 阅读 · 0 评论 -
【MapReduce 框架原理】InputFormat 数据输入
MapReduce 框架原理-InputFormat 数据输入1. 切片与 MapTask 并行度决定机制1 )问题引出2 ) MapTask 并行度决定机制2. Job 提交流程源码和切片源码详解1 ) Job 提交流程源码详解2 ) FileInputFormat 切片源码解析( input.getSplits(job) )3. FileInputFormat 切片机制(1)源码中计算切片大小的公式(2)切片大小设置(3)获取切片信息API4. TextInputFormat1)FileInputFor原创 2021-09-15 15:40:13 · 599 阅读 · 0 评论 -
爆肝好文!带你搞懂 Hadoop 序列化
Hadoop 序列化1. 序列化概述2. 自定义 bean 对象3. 序列化案例实操1. 序列化概述1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活原创 2021-09-09 10:07:52 · 587 阅读 · 0 评论 -
一文带你了解大数据技术之MapReduce
MapReduce 概述1. MapReduce 定义2. MapReduce 优缺点2.1 优点2.2 缺点3. MapReduce 核心思想4. MapReduce 进程5. 官方 WordCount 源码6. 常用数据序列化类型7. MapReduce 编程规范8. WordCount 案例实操1. MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默原创 2021-09-09 09:35:29 · 651 阅读 · 0 评论 -
【MapReduce】WordCount 案例实操
WordCount 案例实操1. 本地测试2. 提交到集群测试1. 本地测试1)需求在给定的文本文件中统计输出每一个单词出现的总次数(1)输入数据ss sscls clsjiaobanzhangxuehadoop(2)期望输出数据banzhang 1cls 2hadoop 1jiao 1ss 2xue 12)需求分析按照 MapReduce 编程规范,分别编写 Mapper,Reducer,Driver。需求:统计一堆文件中单词出现的个数(WordCount案例原创 2021-09-09 09:33:40 · 819 阅读 · 2 评论 -
Hadoop-Maven打包项目<artifactId>maven-assembly-plugin</artifactId>标红报错
Hadoop-Maven项目maven-assembly-plugin标红问题描述解决方案问题描述Hadoop中MapReduce在本地打包jar上传至服务器,在porn.xml中添加相关依赖:<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version&原创 2021-09-07 15:45:30 · 4956 阅读 · 8 评论 -
MapReduce报错:Exception in thread “main“ java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio
Hadoop3.1.3-MapReduce.WordCount 报错解决问题描述原因分析解决方案1解决方案2问题描述MapReduce测试WordCount代码实例,运行代码环境Windows11、JDK13、hadoop3.1.3、IDEA.执行Driver类时,出现问题:package com.zs.mapreduce.wordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path原创 2021-09-07 13:12:00 · 4816 阅读 · 15 评论 -
【HDFS】DataNode
DataNode1. DataNode 工作机制2. 数据完整性3. 掉线时限参数设置1. DataNode 工作机制(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息。DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时;<property> <原创 2021-09-06 22:06:49 · 371 阅读 · 0 评论 -
【HDFS】NameNode 和 SecondaryNameNode 详解
NameNode 和 SecondaryNameNode1. NN 和 2NN 工作机制2. Fsimage 和 Edits 解析1)oiv 查看 Fsimage 文件2)oev 查看 Edits 文件3. CheckPoint 时间设置1. NN 和 2NN 工作机制思考:NameNode 中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断原创 2021-09-06 21:58:29 · 535 阅读 · 0 评论 -
【Hadoop面试重点】HDFS 的读写流程
HDFS 的读写流程1. HDFS 写数据流程1.1 剖析文件写入1.2 网络拓扑-节点距离计算1.3 机架感知(副本存储节点选择)2. HDFS 读数据流程1. HDFS 写数据流程1.1 剖析文件写入(1)客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。(2)NameNode 返回是否可以上传。(3)客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。(4)Nam原创 2021-09-06 21:08:13 · 489 阅读 · 0 评论 -
【Hadoop开发重点】HDFS 的 API 操作
HDFS 的 API 操作1. 客户端环境准备2. HDFS 的 API 案例实操2.1 HDFS 文件上传(测试参数优先级)2.2 HDFS 文件下载2.3 HDFS 文件更名和移动2.4 HDFS 删除文件和目录2.5 HDFS 文件详情查看2.6 HDFS 文件和文件夹判断3. 客户端代码常用套路1. 客户端环境准备1)找到资料包路径下的 Windows 依赖文件夹,拷贝 hadoop-3.1.0 到非中文路径(比如 d:\)。2)配置 HADOOP_HOME 环境变量3)配置 Path原创 2021-09-06 20:55:46 · 3766 阅读 · 3 评论 -
【Hadoop开发重点】HDFS 的 Shell 操作
HDFS 的 Shell 操作1. 基本语法2. 命令大全3. 常用命令实操3.1 准备工作3.2 上传3.3 下载3.4 HDFS 直接操作1. 基本语法hadoop fs 具体命令 OR hdfs dfs 具体命令2. 命令大全[zs@hadoop102 hadoop-3.1.3]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-chgr原创 2021-09-06 12:23:31 · 395 阅读 · 0 评论 -
一文带你了解大数据技术之HDFS
大数据技术之 Hadoop-HDFS概述1. HDFS 产出背景及定义2. HDFS 优缺点3. HDFS 组成架构4. HDFS 文件块大小1. HDFS 产出背景及定义1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。2)HDFS 定义HDFS(Hadoop Distributed File Sy原创 2021-09-06 11:27:46 · 633 阅读 · 0 评论 -
Apache Maven IDEA Plugin Usage(mvn idea:idea/mvn idea:clean/mvn idea:project)
Apache Maven IDEA Plugin Usage1. mvn idea:idea2. mvn idea:idea -DjdkName=1.53. mvn idea:clean4. mvn idea:project1. mvn idea:ideaGenerating the IntelliJ IDEA project files生成IntelliJ IDEA项目文件,IntelliJ IDEA项目设置所需的文件,当依赖的jar包缺少了,就可以使用 mvn idea:idea 命令。2. m原创 2021-09-06 10:52:06 · 1230 阅读 · 0 评论 -
IDEA-Maven Projects中9种生命周期认识
IDEA-Maven Projects中9种生命周期认识前言1. clean2. validate3. compile4. test5. package6. verify7. install8. site9. deploy10. build和compile的区别11. idea重新映入jar前言生命周期是包含在一个项目构建中的一系列有序的阶段。附:在maven命令框中输入 mvn -U idea:idea 将继续下载未下载完整的依赖,超级好用!最常用的两种打包方法:clean,package(原创 2021-09-06 10:41:20 · 464 阅读 · 0 评论 -
IDEA-Maven项目中:java:程序包org.apache.hadoop.conf.fs等众多Hadoop包不存在的问题
java:org.apache.hadoop.conf.fs问题描述解决方案mvn idea:idea问题描述package com.zs.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.Test;import java.io.IOException;import原创 2021-09-06 09:56:56 · 17320 阅读 · 15 评论 -
【Hadoop完全分布式】常见错误及解决方案
常见错误及解决方案1)防火墙没关闭、或者没有启动 YARN2)主机名称配置错误3)IP 地址配置错误4)ssh 没有配置好5)root 用户和 atguigu 两个用户启动集群不统一6)配置文件修改不细心7)不识别主机名称8)DataNode 和 NameNode 进程同时只能工作一个9)执行命令不生效,粘贴 Word 中命令时,遇到-和长–没区分开。导致命令失效10)jps 发现进程已经没有,但是重新启动集群,提示进程已经开启。11)jps 不生效12)8088 端口连接不上1)防火墙没关闭、或者没有启原创 2021-09-05 13:06:58 · 1282 阅读 · 0 评论 -
【Hadoop完全分布式】集群时间同步
集群时间同步前言1. 需求2. 时间服务器配置2.1 查看所有节点 ntpd 服务状态和开机自启动状态2.2 修改 hadoop102 的 ntp.conf 配置文件2.3 修改 hadoop102 的/etc/sysconfig/ntpd 文件2.4 重新启动 ntpd 服务2.5 设置 ntpd 服务开机启动3. 其他机器配置前言如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差原创 2021-09-05 13:01:21 · 488 阅读 · 0 评论