MST

119 篇文章 8 订阅
67 篇文章 2 订阅

1.备份:

sqlserver:

1.1热备:always On 组件 读写分离:SQLserver的Always On 可用性组_hzp666的博客-CSDN博客

1.2本地备份,(备份计划):https://blog.csdn.net/hzp666/article/details/81671246

Oracle:

MySQL:

2.读写分离,集群

SQL server:always On 组件 读写分离:SQLserver的Always On 可用性组_hzp666的博客-CSDN博客

always on部署:SSMS 中的“新建可用性组”对话框 - SQL Server Always On | Microsoft Docs

3.性能优化

# 导致索引失效的情况

SQL server:

3.1.1执行计划: SQL server执行计划_hzp666的博客-CSDN博客

执行计划中,Table Scan, Index Scan, Index Seek名词解释:SQLserver中执行计划的名词解释Table Scan, Index Scan, Index Seek_hzp666的博客-CSDN博客

3.1.2 merge join  、loop join、hash join    浅谈SQL Server中的三种物理连接操作(Nested Loop Join、Merge Join、Hash Join)_hzp666的博客-CSDN博客

  下面我们通过一个表格简单总结这几种连接方式的消耗和使用场景:

嵌套循环连接合并连接哈希连接
适用场景外层循环小,内存循环条件列有序输入两端都有序数据量大,且没有索引
CPU低(如果没有显式排序)
内存低(如果没有显式排序)
IO可能高可能低可能高可能低

3.1.3 聚集索引和非聚集索引的区别,适合使用场景

Oracle:

3.1

3.2索引

SqlServer:

  聚合索引 和非聚合索引  :聚集索引和非聚集索引的区别_hzp666的博客-CSDN博客

索引碎片

填充因子

Oracle:

3.3SQL执行顺序

SqlServer:

SqlServer中sql执行顺序_hzp666的博客-CSDN博客_sqlserver执行顺序

from    表join   on

where

group 

having

select

order 

4.* SQL面试题

SQL面试题_hzp666的博客-CSDN博客

5.云数据库

6.锁,事务隔离,脏读和幻读

SQL server:

SQLserver中的锁:SQLserver中的锁_hzp666的博客-CSDN博客_sqlserver加锁

Oracle:

Oracle中的锁:oracle-数据库的各种-锁-详解_hzp666的博客-CSDN博客_oracle锁

MySQL:

MySQL中的锁:MySQL中的锁_hzp666的博客-CSDN博客

7.函数

SQL server:

7.1行转列 实现原理

如果从最原始的实现,不借助封装的函数,就是用group by分组加sum和decode配合来完成

7.2日期转换

7.3开窗函数

SQL的开窗函数_hzp666的博客-CSDN博客

Oracle:

7.1 merge into:

7.2开窗函数

SQL的开窗函数_hzp666的博客-CSDN博客

Mysql:

7.1 确定性函数和非确定性函数

7.2 内置非确定性函数不能用在用户定义函数的主体中

7.3自定义函数不能修改,只能drop 再create ,alter 只能修改属性 不能修改逻辑内容。 存储过程也是一样

7.4存储过程和函数的区别 mysql中函数和存储过程的区别_hzp666的博客-CSDN博客

8.大数据组件

大数据面试题:

大数据面试题_hzp666的博客-CSDN博客

8.0 内存、JVM、GC

8.1数据倾斜:

数据倾斜_hzp666的博客-CSDN博客

数据倾斜2_hzp666的博客-CSDN博客

数据倾斜3https://blog.csdn.net/hzp666/article/details/120971269

数据倾斜4https://blog.csdn.net/hzp666/article/details/123045273

8.2   hdfs

8.2.1  hdfs如何解决小文件问题

hdfs怎么处理小文件问题_hzp666的博客-CSDN博客_hdfs小文件处理

Hive小文件问题:如何产生、造成影响、解决办法_hzp666的博客-CSDN博客

8.2.2HDFS文件读取流程

HDFS读写流程_hzp666的博客-CSDN博客

8.3 spark

spark面试题梳理:spark面试题_hzp666的博客-CSDN博客

8.3.1 spark如何查看spark计算的执行计划?

explain sql

8.3.2  spark如何自定义执行计划?

8.3.2  说说spark的逻辑计划转化成物理计划的过程原理?

8.3.2 说说spark中通讯机制?

8.3.3 spark实现netty有哪些组件?

8.3.4 说说case object  和 case  class的区别?

8.3.5 说说private 后边跟的 [ ] 中括号 什么意思?

8.3.6 宽窄依赖

Spark宽窄依赖详解_modefrog的博客-CSDN博客_spark宽窄依赖

8.3.7 Spark on Hive 和 Hive on Spark的区别

Spark on Hive 和 Hive on Spark的区别_hzp666的博客-CSDN博客

8.3.8 Spark Shuffle 原理怎么理解的?

spark中shuffle运行原理_hzp666的博客-CSDN博客

spark shuffle怎么优化?

Spark性能调优之Shuffle调优_hzp666的博客-CSDN博客

8.3.9  血统的宽依赖与窄依赖如何定义的?

8.3.* 哪些算子导致shuffle

8.3.10 MR与Spark的区别

MR与Spark的区别_hzp666的博客-CSDN博客_spark中的mr

8.3.11 udf函数

8.3.12 分区,自定义分区

spark学习7:RDD编程_hzp666的博客-CSDN博客

8.3.12.1 spark中repartition和coalesce的区别

spark中repartition和coalesce的区别_hzp666的博客-CSDN博客_repartition和coalesce区别

8.3.13 持久化

spark学习7:RDD编程_hzp666的博客-CSDN博客

8.3.14 解析json

https://blog.csdn.net/hzp666/article/details/117752252

8.3.15 对RDD理解

8.3.16 spark内存机制

8.3.17 spark 数据倾斜

https://blog.csdn.net/hzp666/article/details/122966118

8.4Flink

占坑

8.4.1 flink cdc和传统的canal采集放到kafka,然后flink消费有啥区别

8.5kafka

8.5.1 kafka的幂等是如何保证的

kafka为了幂等,底层架构引入了ProducerID和SequenceNumber
P-ID在初始化的时候会被分配一个唯一的P-Id,这个id对客户端使用者不可见
S-N 主要就是对每个p-id,发送数据的每个Topic和partition都对应一个从0开始的单调递增的SN值

在创建kafka 生产者的时候,会分配一个pid号,可以理解为UUID,

同时会为每条消息的消息体增加一个snumber字段,这个字段代表的这个消息发往某个分区的自增编号。

当服务端收到这个消息的时候,会对这个消息的snumber进行判断。

因为服务端有一个自己的snumber,当新的snmber比我大1 还大的时候说明有异常,提示生产者你发生了问题,有数据丢失。

当新的snmber比我小的时,说明重复数据,我就不处理了,让正好等于服务端的snmber+1时才会被接收和处理。

幂等是这样保证的,但是也有缺点,他是根据分区保证的。假如你生产者换了pid。就有问题了
还有呢 只会保证消息的幂等,不会保证消息内容的幂等,例如key value 都一样,幂等机制也是认为你是两条消息

8.6 hive


8.6.1     hive的优化

hive优化_hzp666的博客-CSDN博客

参数调优:hive参数调优_hzp666的博客-CSDN博客
8.6.2    小文件处理

Hive小文件问题:如何产生、造成影响、解决办法_hzp666的博客-CSDN博客_hive动态分区为什么会产生小文件
8.6.3    hive加密
8.6.4    json数据解析

hive解析json数据_hzp666的博客-CSDN博客
8.6.5    数据降维
8.6.6    hive SQL常用函数:日期、开窗、

行转列

hive中的EXPLODE和LATERAL VIEW_hzp666的博客-CSDN博客
8.6.7    hiveSQL优化
8.6.8    hiveSQL转换原理

8.6.9  hive怎么自定义udf

hive中添加UDF_hzp666的博客-CSDN博客

编写一个java类继承UDFS类 重写aluate方法即可,返回一条数据

8.6.10 hive四种表,内部表、外部表、分区、分捅

hive的分捅表_hzp666的博客-CSDN博客

8.6.11 hive压缩存储格式

hive的压缩存储格式_hzp666的博客-CSDN博客

8.7 HBase

8.7.1 有没有了解过HBase的资源隔离和异构存储,说说其原理?

8.7.2 设计HBase表需要注意的点

设计HBase表需要注意的点_hzp666的博客-CSDN博客

8.7.3 HBase的HLog

HBase的HLog_hzp666的博客-CSDN博客

8.8redis

8.8.1 redis如何实现大数据量的存储

eg:1000万商品数据,redis只能存200万

9.数据仓库

9.1 数仓分层,每层特点,每层直接做的处理

9.2 建模方法,维度建模,星形模型,雪花模型

9.3 维度层搭建,维度表来源

9.10拉链表(压缩存储)

拉链表_hzp666的博客-CSDN博客_拉链表查询

9.11非结构化文件存储

10.算法

10.1 红黑树平衡算法

10.2逻辑回归

10.3朴素贝叶斯

11.Python

11.1

11.2 常用的库

Numpy 、request、beautifulSoup、

https://blog.csdn.net/hzp666/article/details/121420857

999.其他

# 一个链表,不知道长度,怎么求中间节点  

快慢指针:定义一个走两步的指针一个走一步的指针

#二叉树和磁盘目录有什么关系

#怎么查找文件最快

HR问题:

1.离开原因:

2.做过的项目,介绍

a.介绍项目是干嘛的,eg:公司信息化看板项目,主要是公司财务、销售、库存、采购指标。

b.项目开发流程。eg:从各个业务系统收集数据

3.遇到复杂或值得分享的问题,如何解决的

4.做的比较有成就感的事情

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值