自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 MapReduce

mapReduce是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架。mapreduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个hadoop集群上。MapReduce的优缺点优点:易于编程良好的扩展性高容错性适合tb/pb级以上海量数据的离线处理缺点:不擅长实时计算不擅长流式计算不擅长DAG(有向无环图)计算。...

2022-08-13 13:09:39 4255

原创 Hadoop介绍

1、简述大数据研究的意义。 Hadoop思维导图

2022-08-13 13:00:16 2532 1

原创 Hadoop压缩与优化

压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。不过,尽管压缩与解压操作的CPU开销不高,其性能的提升和资源的节省并非没有代价。...

2022-08-15 19:26:58 592 1

原创 Yarn的三个调度器和调度算法

一、Yarn的三种调度器(1)先进先出调度器(FIFO)(2)容量调度器(默认)(Capacity Scheduler)(3)公平调度器(Fair Scheduler)二、具体细节和调度算法1、先进先出调度器(FIFO)

2022-08-13 13:13:43 2748

原创 Hadoop面试题2022

1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述1、Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。2、Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。3、Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。...

2022-08-13 13:12:28 595

原创 Hadoop面试题 MapReduce篇

什么是MapReduce?它是一种框架或编程模型,用于使用分布式编程在计算机集群上处理大型数据集。 什么是“Map”和“Reduce”?“Maps”和“Reduces”是在 HDFS 中解决查询的两个阶段。'Map'负责从输入位置读取数据,并根据输入类型生成一个键值对,即本地机器的中间输出。'Reducer'负责处理从输入位置接收到的中间输出映射器并生成最终输出。 Map映射器的四个基本参数是什么?映射器的四个基本参数是 LongWritable、text、text 和 IntWritable。前

2022-08-13 13:11:02 681

原创 HDFS简答题

1.怎么理解分布式?分布式需要从计算和存储两个方面来讨论:分布式计算:是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。分布式存储,是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,将这些分散的存储资源构成一个虚拟的存储设备,数据分散存储在企业的各个角落,多台服务器。...

2022-08-13 13:07:50 253

原创 Hadoop序列化

java的序列化是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。序列化就是把内存中的对象,转化成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化 就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转化成内存中的对象。5、java有序列化 不用 因为重量级序列化,在序列号过程中会生成很多校验信息。3、网络传输,内存数据与硬盘数据读取,要想保证数据能够正常传输,就要把数据转为2进制。.

2022-08-13 13:05:28 456

原创 HDFS背景及定义

HDFS产生背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS中的文件在物理内存上是分块存储,块的大小可以通过配置参数来规定,在hadoop2版本和3版本,默认大小是128M ,老版本是64M;HDFS定义 :hdfs是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。...

2022-08-13 13:03:38 669

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除