王知无(import_bigdata)
微信搜:import_bigdata
GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData
展开
-
【硬刚Hadoop】HADOOP MAPREDUCE(10):OutputFormat数据输出
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1 OutputFormat接口实现类2自定义OutputFormat3自定义OutputFormat案例实操1.需求过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。(1)输入数据(2)期望输出数据2.需求分析3.案例实操(1...原创 2021-09-21 00:27:14 · 383 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP YARN(1):YARN资源调度器(1) 入门
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,如图4-23所示。图4-23Yarn基本架构..原创 2021-09-21 00:35:46 · 425 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP HDFS(2):HDFS的Shell操作(开发重点)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。1.基本语法hadoop fs具体命令 OR hdfs dfs 具体命令两个是完全相同的。dfs是fs的实现类。2.命令大全[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <...原创 2021-09-20 00:32:55 · 349 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP HDFS(3): HDFS的读写流程(面试重点)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1HDFS写数据流程1.1剖析文件写入HDFS写数据流程,如图3-8所示。 图3-8配置用户名称(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个B...原创 2021-09-20 00:55:13 · 372 阅读 · 0 评论 -
Hadoop学习笔记-YARN
YARN产生背景为什么会产生YRAN?这个与MapReduce1.x的架构有关,正是因为MapReduce1.x存在许多的问题,才会产生 YARN。MapReduce1.x的架构如下:Hadoop1.x时,MapReduce的架构仍然是主从架构。一个JobTracker带多个TaskTracker,主节点为JobTracker,只有一个,从节点为TaskTracker,可以有多个,从节点通...原创 2019-04-04 22:04:58 · 399 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(11):Join应用
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1 Reduce JoinMap端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开,最后进行合并就ok了。2Reduc.原创 2021-09-21 00:30:29 · 278 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(1):概述
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。2MapReduce优缺点2.1 优点1)MapReduce易于编程它简单的实现一些接口,就可以完成一个分布式程序..原创 2021-09-20 01:43:07 · 344 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP YARN(2):YARN资源调度器(2)入门
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。5 Yarn常用命令Yarn状态的查询,除了可以在hadoop103:8088页面查看外,还可以通过命令操作。常见的命令操作如下所示:需求:执行WordCount案例,并用Yarn命令查看任务运行情况。[atguigu@hadoop102 hadoop-3.1.3]$ myhadoop.sh start[atguigu@hadoop102 hadoop-3.1.3]$ hadoop j原创 2021-09-21 01:30:19 · 344 阅读 · 0 评论 -
Hadoop学习笔记(一)初识Hadoop
前言研究生阶段将要接触大数据和深度学习的知识,在网上找的教程大多一上来就是一堆名词又解释不清楚,对新手相当不友好,在慕课网看到一个教程,利用博客记录下自己学习的过程。hadoop介绍关于hadoop 最好的介绍莫过于官网的文档,hadoop的官网如下,http://hadoop.apache.org我们一句一句来看看hadoop官网是怎么介绍的。The Apache™ Hadoop® ...原创 2019-04-04 21:55:34 · 673 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP入门(5):使用(4)安装(4)Hadoop运行模式(2)完全分布式运行模式(开发重点)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。0 简介分析:1)准备3台客户机(关闭防火墙、静态IP、主机名称)2)安装JDK3)配置环境变量4)安装Hadoop5)配置环境变量6)配置集群7)单点启动8)配置ssh9)群起并测试集群1虚拟机准备2编写集群分发脚本xsync1)scp(secure copy)安全拷贝(1)scp定义scp可以实现服务器与服务器之间的数据拷贝。(fr..原创 2021-09-21 01:19:31 · 284 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(5):Shuffle机制(1)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1 Shuffle机制Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。如图4-14所示。2 Partition分区3Partition分区案例实操1.需求将统计结果按照手机归属地不同省份输出到不同文件中(分区)(1)输入数据(2)期望输出数据手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他..原创 2021-09-20 23:58:52 · 296 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP入门(1):概述
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1Hadoop是什么2 Hadoop发展历史(了解)3 Hadoop三大发行版本(了解)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。2006Cloudera内部集成了很多大数据框架,对应产品CDH。2008Hortonworks文档较好,对应产品HDP。..原创 2021-09-20 00:26:43 · 417 阅读 · 0 评论 -
Hadoop学习笔记(五)MapReduce
MapReduce概述源自于Google的MapReduce论文,发表于2004年12月Hadoop MapReduce是Google MapReduce的克隆版MapReduce优点:海量数据的离线处理、易开发、易运行。所谓海量数据,说明MapReduce可以处理的数据量非常大,离线处理说明MapReduce跟实时响应不同,用户将作业提交,系统按批次进行处理,由于数据量大,自然非常耗时...原创 2019-04-04 22:09:41 · 412 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP入门(2):使用(1)安装(1)Hadoop运行环境搭建(开发重点)centos
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1模板虚拟机环境准备0)安装模板虚拟机,IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G1)hadoop100虚拟机配置要求如下(本文Linux系统全部以CentOS-7.5-x86-1804为例)(1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况[root@hadoop100 ~]# ping www.bai.原创 2021-09-21 00:45:13 · 346 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(9):MapReduce内核源码解析(2)ReduceTask工作机制
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1.ReduceTask工作机制ReduceTask工作机制,如图4-19所示。图4-19ReduceTask工作机制(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。(2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行.原创 2021-09-21 00:21:41 · 272 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP HDFS(1):概述
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hbase部分补充。1HDFS产出背景及定义2HDFS优缺点3HDFS组成架构4HDFS文件块大小(面试重点)...原创 2021-09-20 00:30:18 · 351 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(3)MapReduce框架原理(1)InputFormat数据输入
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。0 简介1切片与MapTask并行度决定机制1.问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?2.MapTask并行度决定机制.原创 2021-09-20 01:53:38 · 341 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP入门(4):使用(3)安装(3)Hadoop运行模式(1)本地运行模式(官方WordCount)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。0 简介1)Hadoop官方网站:Apache Hadoop2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。 完全分布式模式:多台服务器组成分布式环境。生产环境使用。原创 2021-09-21 00:57:46 · 320 阅读 · 0 评论 -
Hadoop学习笔记(三)漫画解读HDFS读写原理
首先看看出场的角色,第一个是client客户端,用来发起读写请求,读取HDFS上的文件或往HDFS中写文件;第二个是Namenode,唯一的一个,会协调所有客户端发起的请求;第三个是DataNode,负责数据存储,跟Namenode不一样,DataNode有很多个,有时候能达到数以千计。写数据流程往HDFS中写数据的流程如下:第1幅图:我们跟客户端说,你帮我写一个200M的数据吧,客户端说...原创 2019-04-04 22:00:10 · 439 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(6):Shuffle机制(2)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。4WritableComparable排序1.排序的分类2.自定义排序WritableComparable(1)原理分析bean对象做为key传输,需要实现WritableComparable接口重写compareTo方法,就可以实现排序。 View Code5 WritableComparable排序案例实操(全排序)1.需求根据案例2.3产生的结..原创 2021-09-21 00:08:38 · 264 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP HDFS(4):NameNode和SecondaryNameNode
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1 NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来新的问题,当在内存中的元...原创 2021-09-20 01:21:28 · 296 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(2):序列化
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1序列化概述2自定义bean对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造public Fl...原创 2021-09-20 01:49:15 · 272 阅读 · 0 评论 -
详解Hadoop3.x新特性功能-HDFS纠删码
EC介绍Erasure Coding 简称EC,中文名:纠删码EC(纠删码)是一种编码技术,在HDFS之前,这种编码技术在廉价磁盘冗余阵列(RAID)中应用最广泛(RAID介绍:大数据预备知识-存储磁盘、磁盘冗余阵列RAID介绍),RAID通过条带化技术实现EC,条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术,原理就是将一块连续的数据分成很多小部分并把他们分别存储到不同磁盘上去,这就能使多个进程同时访问数据的多个不同部分而不会造成磁盘冲突(当多个进程同时访问一个磁盘时,可能会转载 2021-10-20 22:26:16 · 981 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP入门(3):使用(2)安装(2)Hadoop运行环境搭建(开发重点)centos
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。3在hadoop102安装JDK1)卸载现有JDK注意:安装JDK前,一定确保提前删除了虚拟机自带的JDK。详细步骤见问文档3.1节中卸载JDK步骤。2)用XShell传输工具将JDK导入到opt目录下面的software文件夹下面3)在Linux系统下的opt目录中查看软件包是否导入成功[atguigu@hadoop102~]$ls/opt/software/看到如...原创 2021-09-21 00:55:02 · 320 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP入门(6):使用(5)安装(5)常见错误及解决方案
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1)防火墙没关闭、或者没有启动YARNINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)IP地址配置错误4)ssh没有配置好5)root用户和atguigu两个用户启动集群不统一6)配置文件修改不细心7)不识别主机名称java.原创 2021-09-21 01:21:48 · 298 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP HDFS(5): DataNode
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1DataNode工作机制DataNode工作机制,如图3-15所示。图3-15DataNode工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。DN向...原创 2021-09-20 01:30:41 · 288 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(8):MapReduce内核源码解析(1)MapTask工作机制
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。MapTask工作机制MapTask工作机制如图4-12所示。图4-12MapTask工作机制(1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。(3)Collect..原创 2021-09-21 00:17:44 · 273 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(4):MapReduce工作流程
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。1.流程示意图,如图4-6,4-7所示图4-6MapReduce详细工作流程(一)图4-7MapReduce详细工作流程(二)2.流程详解上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内...原创 2021-09-20 23:54:53 · 278 阅读 · 0 评论 -
Hadoop学习笔记(二)HDFS
HDFS的设计目标通过上一篇文章的介绍我们已经了解到HDFS到底是怎样的东西,以及它是怎样通过多副本机制来提供高可靠性的,我们可以发现HDFS设计目标可以总结为以下几点:非常巨大的分布式文件系统运行在普通廉价的硬件上易扩展、为用户提供性能不错的文件存储服务HDFS的架构我们通过官网的文档来了解HDFS的基础架构(http://hadoop.apache.org/docs/current...原创 2019-04-04 21:59:08 · 532 阅读 · 0 评论 -
【硬刚Hadoop】HADOOP MAPREDUCE(7):Shuffle机制(3)
本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hadoop部分补充。7Combiner合并(6)自定义Combiner实现步骤(a)自定义一个Combiner继承Reducer,重写Reduce方法public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritable>{ @Override protected void r.原创 2021-09-21 00:15:15 · 290 阅读 · 0 评论