![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 79
尚硅谷大数据学习记录
b u g
这个作者很懒,什么都没留下…
展开
-
Flume拦截器初始化异常造成数据丢失
最近公司对老服务器进行退役,需要将Flume服务迁移至新服,在迁移过程中有一条链路因为拦截器初始化失败造成数据丢失。按推理Flume具有事务性,应该不会造成数据丢失,对此问题进行了排查,记录一下。查阅资料的过程中flume【源码分析】分析Flume的启动过程文章给我提供了莫大的帮助,感谢大佬。Flume具有事务性为什么会造成数据丢失?背景描述:Flume迁移至新服务后,由于自定义拦截器初始化失败(因为需要使用到其他环境,未配置白名单),于是我停止异常的拦截器,解决问题后对拦截器进行重启,第二天就.原创 2021-11-30 00:20:32 · 1148 阅读 · 0 评论 -
Hadoop的HA搭建遇见的两个坑
坑一:Namenode有一个无法启动Unable to determine input streams from QJM to [192.168.98.166:8485, 192.168.98.167:8485, 192.168.98.]2021-03-11 21:16:30,478 WARN org.apache.hadoop.hdfs.server.namenode.FSEditLog: Unable to determine input streams from QJM to [192.168.9转载 2021-06-14 19:49:11 · 771 阅读 · 0 评论 -
Hadoop优化方法
MapReduce程序效率瓶颈在于两点:1.计算机性能:CPU、内存、磁盘、网络2.IO操作:数据倾斜Map和Reduce数设置不合理Map运行时间太长,导致Reduce等待过久小文件过多大量不可分的超大文件Spill次数过多Merge次数过多MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。一、数据输入合并小文件:在执行MR任务前将小文件进行合并,大量的小文件会产生大量的Map任务,增大Map.转载 2021-05-31 17:22:56 · 652 阅读 · 0 评论 -
Yarn资源调度器
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的因哟给程序。一、Yarn基本架构Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。1)ResourceManager主要作用:处理客户端请求监控NodeManager启动或监控ApplicationMaster资源的分配与调度2)NodeMan.转载 2021-05-31 16:18:15 · 204 阅读 · 0 评论 -
Hadoop数据压缩
一、概述压缩技术可以有效减少底层存储(HDFS)读写字节数。压缩提高了网络带宽与磁盘空间效率。在运行MR时,IO、网络数据传输、Shuffle和Merge要花费大量时间,尤其是数据规模很大和负载密集的情况下,因此使用数据压缩显得非常重要。磁盘IO和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘IO和网络传输非常有帮助,可以在任意阶段启用压缩。采用压缩技术减少了磁盘IO,但同时也增加了CPU的运算负担,压缩技术运用得当可以提高性能,但运用不当也可能降低性能。基本原则:运算密集型原创 2021-05-30 20:09:06 · 170 阅读 · 1 评论 -
MapReduce框架原理
一、InputFormat数据输入1.1 切片于MapTask并行度决定机制MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。那么:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?先了解两个概念:数据块:数据块(Block)是HDFS物理上把数据分成一块一块的。数据切片:数据切片只是逻辑上对输入数据进原创 2021-05-30 15:33:53 · 280 阅读 · 0 评论 -
大数据学习记录
根据尚硅谷大数据相关视频学习,整理的笔记,用于日后的回顾大数据概论大数据生态Hadoop运行模式HDFS概述HDFS的shell操作HDFS数据流NameNode和SecondaryNameNodeDataNodeHDFS2.x新特性MapReduce概述原创 2021-01-28 19:47:29 · 343 阅读 · 0 评论 -
MapReduce概述
一、定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分十四运算程序,并发运行在一个Hadoop集群上...原创 2021-01-27 16:55:53 · 202 阅读 · 0 评论 -
HDFS2.x新特性
一、 集群间数据拷贝scp实现两个远程主机之间的文件复制scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 pushscp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pullscp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两原创 2021-01-19 18:37:42 · 124 阅读 · 0 评论 -
DataNode
一、DataNode工作机制一个数据在DataNode上以文件的形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据(包括数据块的长度,块的校验和,以及时间戳)。DataNode启动后像NameNode注册,通过后周期性(1小时)的向NameNode上报所有块信息NameNode与DataNode之间使用心跳进行检测节点是否可用,心跳没每3秒一次,心跳返回结果带有NameNode给该DataNode的命令,如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNo原创 2021-01-19 11:59:39 · 204 阅读 · 0 评论 -
NameNode和SecondaryNameNode
一、NameNode和SecondaryNameNode工作机制思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦N原创 2021-01-19 09:58:28 · 376 阅读 · 0 评论 -
HDFS数据流
一、HDFS写数据流程1.1、刨析文件写入客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已经存在,父目录是否存在。NameNode返回是否可以上传文件客户端请求第一个Block上传到那几个DataNode服务器上NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求后会继续调用dn2,然后dn2调用dn3,将这个原创 2021-01-18 13:17:47 · 114 阅读 · 0 评论 -
HDFS的shell操作
基本语法bin/hadoop fs 具体命令 或者bin/hdfs dfs 具体命令dfs是fs的实现类常用命令:-help:输出这个命令参数[hadoop100@hadoop104 subdir0]$ hadoop fs -help rm-rm [-f] [-r|-R] [-skipTrash] <src> ... : Delete all files that match the specified file pattern. Equivalent to t原创 2021-01-17 11:28:24 · 120 阅读 · 0 评论 -
HDFS概述
一、 HDFS产生背景产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读原创 2021-01-17 10:04:09 · 172 阅读 · 0 评论 -
Hadoop运行模式
一、安装Hadoop与JDK将JDK与Hadoop的安装包上传到虚拟机,并进行解压解压命令:tar -zxvf 文件名或者解压到指定路径tar -zxvf 文件名 -C 文件路径修改环境变量/etc/profile# JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_144 # jdk坐在的位置export PATH=$PATH:$JAVA_HOME/bin# HADOOP_HOMEexport HADOOP_HOME=/opt/mo原创 2021-01-16 23:16:22 · 250 阅读 · 0 评论 -
大数据概论
一、大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和海量数据的分析计算问题按顺序给出数据存储单位bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB二、大数据特点:Volume(大量)截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是原创 2021-01-15 16:39:36 · 414 阅读 · 0 评论