MST_sqlserver always on 面试-CSDN博客

本文链接：https://blog.csdn.net/hzp666/article/details/107842661

1.备份：

sqlserver:

1.1热备：always On 组件读写分离：SQLserver的Always On 可用性组_hzp666的博客-CSDN博客

1.2本地备份，（备份计划）：https://blog.csdn.net/hzp666/article/details/81671246

Oracle：

MySQL：

2.读写分离，集群

SQL server：always On 组件读写分离：SQLserver的Always On 可用性组_hzp666的博客-CSDN博客

always on部署:SSMS 中的“新建可用性组”对话框 - SQL Server Always On | Microsoft Docs

3.性能优化

# 导致索引失效的情况

SQL server：

3.1.1执行计划： SQL server执行计划_hzp666的博客-CSDN博客

执行计划中，Table Scan, Index Scan, Index Seek名词解释：SQLserver中执行计划的名词解释Table Scan, Index Scan, Index Seek_hzp666的博客-CSDN博客

3.1.2 merge join 、loop join、hash join 浅谈SQL Server中的三种物理连接操作(Nested Loop Join、Merge Join、Hash Join)_hzp666的博客-CSDN博客

下面我们通过一个表格简单总结这几种连接方式的消耗和使用场景:

	嵌套循环连接	合并连接	哈希连接
适用场景	外层循环小，内存循环条件列有序	输入两端都有序	数据量大，且没有索引
CPU	低	低（如果没有显式排序）	高
内存	低	低（如果没有显式排序）	高
IO	可能高可能低	低	可能高可能低

3.1.3 聚集索引和非聚集索引的区别，适合使用场景

Oracle：

3.1

3.2索引

SqlServer：

聚合索引和非聚合索引 :聚集索引和非聚集索引的区别_hzp666的博客-CSDN博客

索引碎片

填充因子

Oracle：

3.3SQL执行顺序

SqlServer：

SqlServer中sql执行顺序_hzp666的博客-CSDN博客_sqlserver执行顺序

from 表join on

where

group

having

select

order

4.* SQL面试题

SQL面试题_hzp666的博客-CSDN博客

5.云数据库

6.锁，事务隔离，脏读和幻读

7.函数

SQL server：

7.1行转列实现原理

如果从最原始的实现，不借助封装的函数，就是用group by分组加sum和decode配合来完成

7.2日期转换

7.3开窗函数

SQL的开窗函数_hzp666的博客-CSDN博客

Oracle：

7.1 merge into：

7.2开窗函数

SQL的开窗函数_hzp666的博客-CSDN博客

Mysql:

7.1 确定性函数和非确定性函数

7.2 内置非确定性函数不能用在用户定义函数的主体中

7.3自定义函数不能修改，只能drop 再create ，alter 只能修改属性不能修改逻辑内容。存储过程也是一样

7.4存储过程和函数的区别 mysql中函数和存储过程的区别_hzp666的博客-CSDN博客

8.大数据组件

大数据面试题：

大数据面试题_hzp666的博客-CSDN博客

8.0 内存、JVM、GC

8.1数据倾斜：

数据倾斜_hzp666的博客-CSDN博客

数据倾斜2_hzp666的博客-CSDN博客

数据倾斜3https://blog.csdn.net/hzp666/article/details/120971269

数据倾斜4https://blog.csdn.net/hzp666/article/details/123045273

8.2 hdfs

8.2.1 hdfs如何解决小文件问题

hdfs怎么处理小文件问题_hzp666的博客-CSDN博客_hdfs小文件处理

Hive小文件问题：如何产生、造成影响、解决办法_hzp666的博客-CSDN博客

8.2.2HDFS文件读取流程

HDFS读写流程_hzp666的博客-CSDN博客

8.3 spark

spark面试题梳理：spark面试题_hzp666的博客-CSDN博客

8.3.1 spark如何查看spark计算的执行计划？

explain sql

8.3.2 spark如何自定义执行计划？

8.3.2 说说spark的逻辑计划转化成物理计划的过程原理？

8.3.2 说说spark中通讯机制？

8.3.3 spark实现netty有哪些组件？

8.3.4 说说case object 和 case class的区别？

8.3.5 说说private 后边跟的 [ ] 中括号什么意思？

8.3.6 宽窄依赖

Spark宽窄依赖详解_modefrog的博客-CSDN博客_spark宽窄依赖

8.3.7 Spark on Hive 和 Hive on Spark的区别

Spark on Hive 和 Hive on Spark的区别_hzp666的博客-CSDN博客

8.3.8 Spark Shuffle 原理怎么理解的？

spark中shuffle运行原理_hzp666的博客-CSDN博客

spark shuffle怎么优化？

Spark性能调优之Shuffle调优_hzp666的博客-CSDN博客

8.3.9 血统的宽依赖与窄依赖如何定义的？

8.3.* 哪些算子导致shuffle

8.3.10 MR与Spark的区别

MR与Spark的区别_hzp666的博客-CSDN博客_spark中的mr

8.3.11 udf函数

8.3.12 分区，自定义分区

spark学习7：RDD编程_hzp666的博客-CSDN博客

8.3.12.1 spark中repartition和coalesce的区别

spark中repartition和coalesce的区别_hzp666的博客-CSDN博客_repartition和coalesce区别

8.3.13 持久化

spark学习7：RDD编程_hzp666的博客-CSDN博客

8.3.14 解析json

https://blog.csdn.net/hzp666/article/details/117752252

8.3.15 对RDD理解

8.3.16 spark内存机制

8.3.17 spark 数据倾斜

https://blog.csdn.net/hzp666/article/details/122966118

8.4Flink

占坑

8.4.1 flink cdc和传统的canal采集放到kafka，然后flink消费有啥区别

8.5kafka

8.5.1 kafka的幂等是如何保证的

kafka为了幂等，底层架构引入了ProducerID和SequenceNumber

P-ID在初始化的时候会被分配一个唯一的P-Id,这个id对客户端使用者不可见
S-N 主要就是对每个p-id,发送数据的每个Topic和partition都对应一个从0开始的单调递增的SN值

在创建kafka 生产者的时候，会分配一个pid号，可以理解为UUID，

同时会为每条消息的消息体增加一个snumber字段，这个字段代表的这个消息发往某个分区的自增编号。

当服务端收到这个消息的时候，会对这个消息的snumber进行判断。

因为服务端有一个自己的snumber，当新的snmber比我大1 还大的时候说明有异常，提示生产者你发生了问题，有数据丢失。

当新的snmber比我小的时，说明重复数据，我就不处理了，让正好等于服务端的snmber+1时才会被接收和处理。

幂等是这样保证的，但是也有缺点，他是根据分区保证的。假如你生产者换了pid。就有问题了

还有呢 只会保证消息的幂等，不会保证消息内容的幂等，例如key value 都一样，幂等机制也是认为你是两条消息

8.6 hive

8.6.1 hive的优化

hive优化_hzp666的博客-CSDN博客

参数调优：hive参数调优_hzp666的博客-CSDN博客
8.6.2 小文件处理

Hive小文件问题：如何产生、造成影响、解决办法_hzp666的博客-CSDN博客_hive动态分区为什么会产生小文件
8.6.3 hive加密
8.6.4 json数据解析

hive解析json数据_hzp666的博客-CSDN博客
8.6.5 数据降维
8.6.6 hive SQL常用函数：日期、开窗、

行转列

hive中的EXPLODE和LATERAL VIEW_hzp666的博客-CSDN博客
8.6.7 hiveSQL优化
8.6.8 hiveSQL转换原理

8.6.9 hive怎么自定义udf

hive中添加UDF_hzp666的博客-CSDN博客

编写一个java类继承UDFS类重写aluate方法即可，返回一条数据

8.6.10 hive四种表，内部表、外部表、分区、分捅

hive的分捅表_hzp666的博客-CSDN博客

8.6.11 hive压缩存储格式

hive的压缩存储格式_hzp666的博客-CSDN博客

8.7 HBase

8.7.1 有没有了解过HBase的资源隔离和异构存储，说说其原理？

8.7.2 设计HBase表需要注意的点

设计HBase表需要注意的点_hzp666的博客-CSDN博客

8.7.3 HBase的HLog

HBase的HLog_hzp666的博客-CSDN博客

8.8redis

8.8.1 redis如何实现大数据量的存储

eg:1000万商品数据，redis只能存200万

9.数据仓库

9.1 数仓分层，每层特点，每层直接做的处理

9.2 建模方法，维度建模，星形模型，雪花模型

9.3 维度层搭建，维度表来源

9.10拉链表（压缩存储）

拉链表_hzp666的博客-CSDN博客_拉链表查询

9.11非结构化文件存储

10.算法

10.1 红黑树平衡算法

10.2逻辑回归

10.3朴素贝叶斯

11.Python

11.1

11.2 常用的库

Numpy 、request、beautifulSoup、

https://blog.csdn.net/hzp666/article/details/121420857

999.其他

# 一个链表，不知道长度，怎么求中间节点

快慢指针：定义一个走两步的指针一个走一步的指针

#二叉树和磁盘目录有什么关系

#怎么查找文件最快

HR问题：

1.离开原因：

2.做过的项目，介绍

a.介绍项目是干嘛的，eg:公司信息化看板项目，主要是公司财务、销售、库存、采购指标。

b.项目开发流程。eg:从各个业务系统收集数据

3.遇到复杂或值得分享的问题，如何解决的

4.做的比较有成就感的事情

MST

1.备份：

sqlserver:

Oracle：

MySQL：

2.读写分离，集群

SQL server：always On 组件 读写分离：SQLserver的Always On 可用性组_hzp666的博客-CSDN博客

3.性能优化

SQL server：

Oracle：

3.2索引

SqlServer：

Oracle：

3.3SQL执行顺序

SqlServer：

4.* SQL面试题

5.云数据库

6.锁，事务隔离，脏读和幻读

SQL server：

Oracle：

MySQL：

7.函数

SQL server：

Oracle：

Mysql:

8.大数据组件

8.0 内存、JVM、GC

8.1数据倾斜：

8.2 hdfs

8.2.1 hdfs如何解决小文件问题

8.2.2HDFS文件读取流程

8.3 spark

8.3.1 spark如何查看spark计算的执行计划？

8.3.2 spark如何自定义执行计划？

8.3.2 说说spark的逻辑计划转化成物理计划的过程原理？

8.3.2 说说spark中通讯机制？

8.3.3 spark实现netty有哪些组件？

8.3.4 说说case object 和 case class的区别？

8.3.5 说说private 后边跟的 [ ] 中括号 什么意思？

8.3.6 宽窄依赖

8.3.7 Spark on Hive 和 Hive on Spark的区别

8.3.8 Spark Shuffle 原理怎么理解的？

spark shuffle怎么优化？

8.3.9 血统的宽依赖与窄依赖如何定义的？

8.3.* 哪些算子导致shuffle

8.3.10 MR与Spark的区别

8.3.11 udf函数

8.3.12 分区，自定义分区

8.3.12.1 spark中repartition和coalesce的区别

8.3.13 持久化

8.3.14 解析json

8.3.15 对RDD理解

8.3.16 spark内存机制

8.3.17 spark 数据倾斜

8.4Flink

8.5kafka

8.5.1 kafka的幂等是如何保证的

8.6 hive

8.6.1 hive的优化

hive优化_hzp666的博客-CSDN博客

参数调优：hive参数调优_hzp666的博客-CSDN博客 8.6.2 小文件处理

Hive小文件问题：如何产生、造成影响、解决办法_hzp666的博客-CSDN博客_hive动态分区为什么会产生小文件 8.6.3 hive加密 8.6.4 json数据解析

hive解析json数据_hzp666的博客-CSDN博客 8.6.5 数据降维 8.6.6 hive SQL常用函数：日期、开窗、

行转列

hive中的EXPLODE和LATERAL VIEW_hzp666的博客-CSDN博客 8.6.7 hiveSQL优化 8.6.8 hiveSQL转换原理

8.6.9 hive怎么自定义udf

8.6.10 hive四种表，内部表、外部表、分区、分捅

8.6.11 hive压缩存储格式

8.7 HBase

8.7.1 有没有了解过HBase的资源隔离和异构存储，说说其原理？

8.7.2 设计HBase表需要注意的点

8.7.3 HBase的HLog

8.8redis

8.8.1 redis如何实现大数据量的存储

9.数据仓库

9.1 数仓分层，每层特点，每层直接做的处理

9.2 建模方法，维度建模，星形模型，雪花模型

9.3 维度层搭建，维度表来源

9.10拉链表（压缩存储）

9.11非结构化文件存储

SQL server：always On 组件读写分离：SQLserver的Always On 可用性组_hzp666的博客-CSDN博客

8.3.5 说说private 后边跟的 [ ] 中括号什么意思？

参数调优：hive参数调优_hzp666的博客-CSDN博客
8.6.2 小文件处理

Hive小文件问题：如何产生、造成影响、解决办法_hzp666的博客-CSDN博客_hive动态分区为什么会产生小文件
8.6.3 hive加密
8.6.4 json数据解析

hive解析json数据_hzp666的博客-CSDN博客
8.6.5 数据降维
8.6.6 hive SQL常用函数：日期、开窗、

hive中的EXPLODE和LATERAL VIEW_hzp666的博客-CSDN博客
8.6.7 hiveSQL优化
8.6.8 hiveSQL转换原理