1.备份:
sqlserver:
1.1热备:always On 组件 读写分离:SQLserver的Always On 可用性组_hzp666的博客-CSDN博客
1.2本地备份,(备份计划):https://blog.csdn.net/hzp666/article/details/81671246
Oracle:
MySQL:
2.读写分离,集群
SQL server:always On 组件 读写分离:SQLserver的Always On 可用性组_hzp666的博客-CSDN博客
always on部署:SSMS 中的“新建可用性组”对话框 - SQL Server Always On | Microsoft Docs
3.性能优化
# 导致索引失效的情况
SQL server:
3.1.1执行计划: SQL server执行计划_hzp666的博客-CSDN博客
执行计划中,Table Scan, Index Scan, Index Seek名词解释:SQLserver中执行计划的名词解释Table Scan, Index Scan, Index Seek_hzp666的博客-CSDN博客
3.1.2 merge join 、loop join、hash join 浅谈SQL Server中的三种物理连接操作(Nested Loop Join、Merge Join、Hash Join)_hzp666的博客-CSDN博客
下面我们通过一个表格简单总结这几种连接方式的消耗和使用场景:
嵌套循环连接 | 合并连接 | 哈希连接 | |
适用场景 | 外层循环小,内存循环条件列有序 | 输入两端都有序 | 数据量大,且没有索引 |
CPU | 低 | 低(如果没有显式排序) | 高 |
内存 | 低 | 低(如果没有显式排序) | 高 |
IO | 可能高可能低 | 低 | 可能高可能低 |
3.1.3 聚集索引和非聚集索引的区别,适合使用场景
Oracle:
3.1
3.2索引
SqlServer:
聚合索引 和非聚合索引 :聚集索引和非聚集索引的区别_hzp666的博客-CSDN博客
索引碎片
填充因子
Oracle:
3.3SQL执行顺序
SqlServer:
SqlServer中sql执行顺序_hzp666的博客-CSDN博客_sqlserver执行顺序
from 表join on
where
group
having
select
order
4.* SQL面试题
5.云数据库
6.锁,事务隔离,脏读和幻读
SQL server:
SQLserver中的锁:SQLserver中的锁_hzp666的博客-CSDN博客_sqlserver加锁
Oracle:
Oracle中的锁:oracle-数据库的各种-锁-详解_hzp666的博客-CSDN博客_oracle锁
MySQL:
MySQL中的锁:MySQL中的锁_hzp666的博客-CSDN博客
7.函数
SQL server:
7.1行转列 实现原理
如果从最原始的实现,不借助封装的函数,就是用group by分组加sum和decode配合来完成
7.2日期转换
7.3开窗函数
Oracle:
7.1 merge into:
7.2开窗函数
Mysql:
7.1 确定性函数和非确定性函数
7.2 内置非确定性函数不能用在用户定义函数的主体中
7.3自定义函数不能修改,只能drop 再create ,alter 只能修改属性 不能修改逻辑内容。 存储过程也是一样
7.4存储过程和函数的区别 mysql中函数和存储过程的区别_hzp666的博客-CSDN博客
8.大数据组件
大数据面试题:
8.0 内存、JVM、GC
8.1数据倾斜:
数据倾斜3https://blog.csdn.net/hzp666/article/details/120971269
数据倾斜4https://blog.csdn.net/hzp666/article/details/123045273
8.2 hdfs
8.2.1 hdfs如何解决小文件问题
hdfs怎么处理小文件问题_hzp666的博客-CSDN博客_hdfs小文件处理
Hive小文件问题:如何产生、造成影响、解决办法_hzp666的博客-CSDN博客
8.2.2HDFS文件读取流程
8.3 spark
spark面试题梳理:spark面试题_hzp666的博客-CSDN博客
8.3.1 spark如何查看spark计算的执行计划?
explain sql
8.3.2 spark如何自定义执行计划?
8.3.2 说说spark的逻辑计划转化成物理计划的过程原理?
8.3.2 说说spark中通讯机制?
8.3.3 spark实现netty有哪些组件?
8.3.4 说说case object 和 case class的区别?
8.3.5 说说private 后边跟的 [ ] 中括号 什么意思?
8.3.6 宽窄依赖
Spark宽窄依赖详解_modefrog的博客-CSDN博客_spark宽窄依赖
8.3.7 Spark on Hive 和 Hive on Spark的区别
Spark on Hive 和 Hive on Spark的区别_hzp666的博客-CSDN博客
8.3.8 Spark Shuffle 原理怎么理解的?
spark中shuffle运行原理_hzp666的博客-CSDN博客
spark shuffle怎么优化?
Spark性能调优之Shuffle调优_hzp666的博客-CSDN博客
8.3.9 血统的宽依赖与窄依赖如何定义的?
8.3.* 哪些算子导致shuffle
8.3.10 MR与Spark的区别
MR与Spark的区别_hzp666的博客-CSDN博客_spark中的mr
8.3.11 udf函数
8.3.12 分区,自定义分区
spark学习7:RDD编程_hzp666的博客-CSDN博客
8.3.12.1 spark中repartition和coalesce的区别
spark中repartition和coalesce的区别_hzp666的博客-CSDN博客_repartition和coalesce区别
8.3.13 持久化
spark学习7:RDD编程_hzp666的博客-CSDN博客
8.3.14 解析json
https://blog.csdn.net/hzp666/article/details/117752252
8.3.15 对RDD理解
8.3.16 spark内存机制
8.3.17 spark 数据倾斜
https://blog.csdn.net/hzp666/article/details/122966118
8.4Flink
占坑
8.4.1 flink cdc和传统的canal采集放到kafka,然后flink消费有啥区别
8.5kafka
8.5.1 kafka的幂等是如何保证的
kafka为了幂等,底层架构引入了ProducerID和SequenceNumber
P-ID在初始化的时候会被分配一个唯一的P-Id,这个id对客户端使用者不可见 S-N 主要就是对每个p-id,发送数据的每个Topic和partition都对应一个从0开始的单调递增的SN值
在创建kafka 生产者的时候,会分配一个pid号,可以理解为UUID,
同时会为每条消息的消息体增加一个snumber字段,这个字段代表的这个消息发往某个分区的自增编号。
当服务端收到这个消息的时候,会对这个消息的snumber进行判断。
因为服务端有一个自己的snumber,当新的snmber比我大1 还大的时候说明有异常,提示生产者你发生了问题,有数据丢失。
当新的snmber比我小的时,说明重复数据,我就不处理了,让正好等于服务端的snmber+1时才会被接收和处理。
幂等是这样保证的,但是也有缺点,他是根据分区保证的。假如你生产者换了pid。就有问题了
还有呢 只会保证消息的幂等,不会保证消息内容的幂等,例如key value 都一样,幂等机制也是认为你是两条消息
8.6 hive
8.6.1 hive的优化
hive优化_hzp666的博客-CSDN博客
参数调优:hive参数调优_hzp666的博客-CSDN博客
8.6.2 小文件处理
Hive小文件问题:如何产生、造成影响、解决办法_hzp666的博客-CSDN博客_hive动态分区为什么会产生小文件
8.6.3 hive加密
8.6.4 json数据解析
hive解析json数据_hzp666的博客-CSDN博客
8.6.5 数据降维
8.6.6 hive SQL常用函数:日期、开窗、
行转列
hive中的EXPLODE和LATERAL VIEW_hzp666的博客-CSDN博客
8.6.7 hiveSQL优化
8.6.8 hiveSQL转换原理
8.6.9 hive怎么自定义udf
编写一个java类继承UDFS类 重写aluate方法即可,返回一条数据
8.6.10 hive四种表,内部表、外部表、分区、分捅
8.6.11 hive压缩存储格式
8.7 HBase
8.7.1 有没有了解过HBase的资源隔离和异构存储,说说其原理?
8.7.2 设计HBase表需要注意的点
设计HBase表需要注意的点_hzp666的博客-CSDN博客
8.7.3 HBase的HLog
8.8redis
8.8.1 redis如何实现大数据量的存储
eg:1000万商品数据,redis只能存200万
9.数据仓库
9.1 数仓分层,每层特点,每层直接做的处理
9.2 建模方法,维度建模,星形模型,雪花模型
9.3 维度层搭建,维度表来源
9.10拉链表(压缩存储)
9.11非结构化文件存储
10.算法
10.1 红黑树平衡算法
10.2逻辑回归
10.3朴素贝叶斯
11.Python
11.1
11.2 常用的库
Numpy 、request、beautifulSoup、
https://blog.csdn.net/hzp666/article/details/121420857
999.其他
# 一个链表,不知道长度,怎么求中间节点
快慢指针:定义一个走两步的指针一个走一步的指针
#二叉树和磁盘目录有什么关系
#怎么查找文件最快
HR问题:
1.离开原因:
2.做过的项目,介绍
a.介绍项目是干嘛的,eg:公司信息化看板项目,主要是公司财务、销售、库存、采购指标。
b.项目开发流程。eg:从各个业务系统收集数据
3.遇到复杂或值得分享的问题,如何解决的
4.做的比较有成就感的事情