面试
文章平均质量分 96
未来影子
曾先后在百度、理想、快手参与研发工作
后端、大数据、NLP学习者
展开
-
大数据面试小抄
流式大数据处理引擎内存执行速度 -> 速度快任意规模 -> 可扩展性强高吞吐、低延迟:每秒处理数百万个事件,毫秒级延迟结果的准确性:提供事件事件、处理时间语义。对于乱序事件流仍然能提供一致且准确的结果exactle-once状态一致性保证高可用:本身高可用的设置,加上与K8s、YARN、Mesos的紧密集成,再加上从故障中快速恢复、动态扩展任务的能力,Flink能做到以极少的停机事件 7 * 24 全体候运行能够更新应用程序代码将作业迁移到不同的Flink集群,而不会丢失应用程序状态。原创 2023-02-17 20:15:40 · 3742 阅读 · 1 评论 -
Spark精简面试
Spark的使用场景大数据场景主要有以下几种类型:针对以上情况,不用Spark来处理的框架如下:使用Spark处理:Spark的四种部署模式本地:将Spark应用以多线程的方式直接运行在本地,一般是为了方便调试。本地模式分为三类locak:启动一个executorlocal[k]:启动k个executorlocal[*]:启动跟CPU数目相同的executorstandalone:分布式部署集群,自带完整的服务,资源、任务监控由spark管理,这个模式也是其他模式的基础Spark o原创 2022-06-21 21:25:27 · 374 阅读 · 0 评论 -
Kafka面试知识点整理
Kafka是一种分布式、高吞吐量的分布式分布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,主要应用于大数据实时处理领域。类比来说,kafka是一个邮箱,生产者是发送邮件的人,消费者是接收邮件的人,Kafka是用来存东西的,只不过它提供了一些处理邮件的机制。特点优点:缺点Kafka的使用场景1、消息队列功能:在系统或应用程序之间构建可靠的用于传输实时数据的管道2、数据处理功能:在系统或应用程序之间构建可靠的用于传输实时数据的管道,Kafka架构Kafka的生产者区域分区策略1原创 2022-06-11 16:21:46 · 287 阅读 · 1 评论 -
MySQL面试整理
SELECT执行顺序在 SELECT 语句执行这些步骤的时候,每个步骤都会产生一个 虚拟表 ,然后将这个虚拟表传入下一个步骤中作为输入SELECT 是先执行 FROM 这一步的。在这个阶段,如果是多张表联查,还会经历下面的几个步骤拿到查询数据表的原始数据(虚拟表vt1),再此基础上进行WHERE阶段,过滤得到虚拟表vt2再进行GROUP 和 HAVING 阶段,对vt2进行分组和分组过滤,得到中间虚拟表vt3、vt4随后进入 SELECT 和 DISTINCT 阶段,分别得到中间的虚拟表 vt5-1、原创 2022-06-10 21:25:12 · 303 阅读 · 0 评论 -
JVM面试
基本概念:JVM是可运行Java代码的假想计算机,包括一套字节码指令集,一组寄存器、一个栈、一个垃圾回收、堆和一个存储方法域。JVM运行在操作系统上,与硬件没有直接交互运行过程:java源文件通过编译器生成相应的Class文件(字节码文件),字节码文件又通过Java虚拟机中的解释器编译成特定机器上的机器码每一种平台的解释器是不同的,但是实现的虚拟机是相同的,这也就是为什么JAVA能够跨平台的原因。当一个程序开始运行,此时虚拟机开始实例化,多个程序启动就会存在多个虚拟机实例。程序退出或者关闭,则虚拟机实例消亡原创 2022-06-07 10:19:35 · 212 阅读 · 0 评论 -
JAVA并发编程直击面试
Thread 类本质上是实现了 Runnable 接口的一个实例,代表一个线程的实例。启动线程的唯一方法就是通过 Thread 类的 start()实例方法start()方法是一个 native 方法,它将启动一个新线程,并执行 run()方法实现Runnable接口当自己的类已经extends 另一个类,就无法直接 extends Thread,此时,可以实现一个 Runnable 接口ExecutorService、Callable、Future 有返回值线程有返回值的任务必须实现Callabl原创 2022-06-01 11:27:53 · 116 阅读 · 0 评论 -
Flink面试重点
文章目录Flink介绍Flink架构(重点)作业提交流程高层级视角独立模式YARN集群Flink的水位线(重点)Flink的窗口(重点)窗口分类窗口函数窗口其他APIFlink的Checkpoint(重点)checkpoint保存checkpoint恢复checkpoint算法checkpoint配置SavepointExactly-One(重点)概念输入端保证输出端保证Flink的CEP(重点)概念应用场景模式API模式的检测处理Flink处理背压Flink SQL解析过程Flink介绍流式大数据处理原创 2022-05-02 12:29:15 · 536 阅读 · 0 评论 -
HBase面试八股
文章目录HBase介绍HBase优缺点HBase数据结构HBase原理HBase架构(重点)HBase核心原理HBase写流程(重点)HBase读流程(重点)HBase的读写缓存HBase的数据删除HBase的RegionServer宕机以后怎么恢复HBase HA的实现(重点)HBase的rowkey设计原则(重点)HBase的热点问题HBase的大合并、小合并HBase数据的compact流程HBase的LSM结构HBase的Get和Scan的区别HBase和关系型(传统数据库)的区别?HBase介绍原创 2022-05-02 12:27:53 · 670 阅读 · 0 评论 -
Hive面试重点
文章目录Hive介绍Hive架构(重点)Hive内外部表(重点)Hive建表语句Hive数据倾斜以及解决方案(重点)Hive的自定义函数Hive的sort by、distribute by、cluser by、order by区别Hive分区和分桶的区别HQL转化为MR的过程Hive的存储引擎和计算引擎1、计算引擎2、存储引擎Join的操作原理1、Common Join2、Map Join3、SMB JoinHive上传数据到HDFS,小文件问题Hive保存元数据的方式Hive开窗函数Hive介绍提供了原创 2022-05-02 12:26:07 · 1508 阅读 · 0 评论 -
Hadoop面试重点
文章目录Hadoop基础-----------------------------------------------Hadoop的特点Hadoop的1.x,2.x,3.xHadoop的运行模式Hadoop的序列化Hadoop的压缩Hadoop自带的小文件处理方案HDFS区域--------------------------------------------------HDFS组件(重点)HDFS的BlockHDFS写流程(重点)HDFS读流程(重点)DN节点数据完整性HDFS HA实现HDFS数据的一原创 2022-05-02 12:24:33 · 1012 阅读 · 0 评论