自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(200)
  • 收藏
  • 关注

原创 大数据面试题:Spark和Flink的区别

Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给JobManager 进行处理, JobManager 会根据 JobGraph 生成 ExecutionGraph,ExecutionGraph 是 Flink 调度最核心的数据结构,JobManager 根据 ExecutionGraph 对 Job 进行调度。在Flink的世界观中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。

2023-10-10 21:40:57 1130

原创 大数据面试题:Spark和MapReduce之间的区别?各自优缺点?

Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。

2023-10-07 22:10:23 2252

原创 《阿里大数据之路》读书笔记:第三章 数据同步

数据同步技术含义:不同系统间的数据流转,有多种不同的应用场景。应用场景:- 同类型不同集群数据库之间的数据同步- 主数据库与备份数据库之间的数据备份- 主系统与子系统之间的数据更新- 不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步- 数据从业务系统同步进入数据仓库- 数据从数据仓库同步进入数据服务或数据应用

2023-09-10 11:12:16 392

原创 大数据面试题:MapReduce压缩方式

对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。当Mapreduce作业的Map输出的数据比较大的时候,作为Map到Reduce的中间数据的压缩格式。一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况。适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式。

2023-09-02 13:17:45 575

原创 大数据面试题:Spark的任务执行流程

运行流程以SparkContext为程序运行的总入口,在SparkContext的初始化过程中,Spark会分别创建DAGScheduler作业调度和TaskScheduler任务调度两级调度模块。

2023-08-19 12:46:17 685

原创 大数据面试题:说下Spark中的Transform和Action,为什么Spark要把操作分为Transform和Action?

Transform和ActionTransformation是得到一个新的RDD,但并不立即执行计算,只是记录下这个操作。方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD。Action是指触发对RDD进行计算的操作,得到一个值,或者一个结果(直接将RDD cache到内存中)。因为所有的Transformation都是采用的懒策略,就是如果只是将Transformation提交是不会执行计算的,计算只有在Action被提交的时候才被触发。这样有利于减少内存消耗,提高了执行效率。

2023-08-12 11:19:29 390

原创 大数据面试题:Kafka的ISR机制

如果Partition Follower长时间(replica.lag.time.max.ms,默认10s)未向Leader同步数据,则该Partition Follower将被踢出ISR,存入OSR(Outof-Sync Replicas)列表(AR = ISR + OSR,AR(Assigned Repllicas):一个partition的所有副本(就是replica,不区分Leader或Follower)),新加入的Follower也会先存放在OSR中。可回答:1)从ISR踢出去之后呢;

2023-08-09 22:49:54 1405

原创 大数据面试题:Hadoop中的几个进程和作用

Hadoop中的几个进程和作用

2023-08-07 23:22:34 773

原创 大数据面试题:HBase的读写缓存

HBase上RegionServer的cache主要分为两个部分:MemStore & BlockCache。

2023-08-05 11:39:09 850

原创 大数据面试题:HBase的RegionServer宕机以后怎么恢复的?

通常情况下要求集群中至少启动两个Master进程,进程启动之后会到ZooKeeper上的Master节点进行注册,注册成功后会成为ActiveMaster,其他在Master节点未注册成功的进程会到另一个节点Backup-Masters节点进行注册,并持续关注Active Master的情况,一旦Active Master发生宕机,这些Backup-Masters就会立刻得到通知,它们再次竞争注册Master节点,注册成功就可成为Active Master。FullGc引起长时间停顿。

2023-07-31 22:59:19 1212

原创 大数据面试题:Kafka的单播和多播

大数据面试题:Kafka的单播和多播

2023-07-30 11:26:34 1495

原创 大数据面试题:超详细版MapReduce工作原理

大数据面试题:超详细版MapReduce工作原理

2023-07-27 21:18:14 271

原创 大数据面试题:Kafka怎么保证数据不丢失,不重复?

大数据面试题:Kafka怎么保证数据不丢失,不重复?

2023-07-24 21:25:28 1492

原创 大数据面试题:HBase读写数据流程

大数据面试题:HBase读写数据流程

2023-07-23 14:43:18 617

原创 大数据面试题:Kafka怎么保证数据不丢失,不重复?

Kafka怎么保证数据不丢失,不重复?

2023-07-22 13:17:22 593

原创 大数据面试题:Kafka的消费者和消费者组有什么区别?为什么需要消费者组?

大数据面试题:Kafka的消费者和消费者组有什么区别?为什么需要消费者组?

2023-07-16 14:56:53 339

原创 《阿里大数据之路》读书笔记:第二章 日志采集

《阿里大数据之路》读书笔记:第二章 日志采集

2023-07-04 22:52:44 830 1

原创 大数据面试题:Kafka的Message包括哪些信息

大数据面试题:Kafka的Message包括哪些信息

2023-07-01 15:03:09 600

原创 大数据面试题:Zookeeper架构

大数据面试题:Zookeeper架构

2023-06-29 10:26:33 721

原创 大数据面试题:HBase为什么查询快

HBase为什么查询快

2023-06-22 12:04:28 1407

原创 大数据面试题:Hive的cluster by 、sort by、distribute by 、order by 区别?

Hive的cluster by 、sort by、distribute by 、order by 区别

2023-06-20 12:52:22 587

原创 《阿里大数据之路》读书笔记:第一章 总述

阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

2023-06-14 22:49:07 1043

原创 Hadoop的mapper和reducer的个数如何确定?reducer的个数依据是什么?

FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过HDFS块的大小的文件。如果HDFS中dfs.block.size设置为128m,而输入的目录中文件有100个,则划分后的split个数至少为100个。当块(dfs.block.size)为128m时,如果输入文件为128m,会被划分为1个split;分片是按照splitszie的大小进行分割的,一个split的大小在没有设置的情况下,默认等于hdfs block的大小。x为reduce的数量。

2023-06-11 22:15:44 347

原创 Hive的用户自定义函数实现步骤与流程

用户创建的UDF使用过程如下:第一步:继承UDF或者UDAF或者UDTF,实现特定的方法;第二步:将写好的类打包为jar,如hivefirst.jar;第三步:进入到Hive外壳环境中,利用add jar /home/hadoop/hivefirst.jar注册该jar文件;第四步:为该类起一个别名,create temporary function mylength as 'com.whut.StringLength',这里注意UDF只是为这个Hive会话临时定义的;

2023-05-25 13:03:40 809

原创 Hive Beeline连接报错:Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000

Hive Beeline连接报错:Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000

2022-11-27 15:19:51 1474

原创 Hadoop总结——HDFS

Hadoop总结——HDFS

2022-11-22 17:23:43 1878

原创 Hadoop总结——Hadoop基础

Hadoop总结——Hadoop基础

2022-11-19 16:19:05 2711

原创 Spark的内存管理机制

Spark的内存管理机制

2022-11-16 10:15:05 703

原创 计算机网络面试题

计算机网络面试题

2022-11-15 17:28:52 507

原创 Spark常见数据倾斜情况及调优方案

Spark常见数据倾斜情况及调优方案

2022-11-09 08:42:11 2584

原创 Spark面试题—Spark Troubleshooting

Spark面试题—Spark Troubleshooting

2022-11-08 11:41:16 179

原创 悲观锁与乐观锁

悲观锁与乐观锁

2022-11-06 09:33:27 173

原创 Flink面试进阶篇

Flink面试进阶篇

2022-11-05 21:04:21 902

原创 为什么会产生yarn,解决了什么问题,优势?

为什么会产生yarn,解决了什么问题,优势?

2022-11-04 08:38:35 691

原创 Spark面试题——Spark小文件问题及解决方案

Spark小文件问题及解决方案

2022-11-02 12:24:29 1514

原创 Spark面试题——说下对RDD的理解?RDD特点、算子?

Spark面试题——说下对RDD的理解?RDD特点、算子?

2022-10-30 12:42:21 494

原创 数据仓库面试题——介绍下数据仓库

数据仓库面试题——介绍下数据仓库

2022-10-29 10:44:14 740

原创 数据仓库面试题——数据仓库分层

数据仓库分层

2022-10-26 22:07:07 1164

原创 字节电商大数据开发一面,已过,面试题已配答案

字节电商大数据开发一面,已过,面试题已配答案

2022-10-25 22:22:49 2069

原创 阿里云大数据开发三面面经,已过,面试题已配答案

阿里云大数据开发三面面经,已过,面试题已配答案

2022-10-24 10:14:47 4485 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除