1、redis有没有用过,常用的数据结构以及在业务中使用的场景,redis的hash怎么实现的,rehash过程讲一下和JavaHashMap的rehash有什么区别?redis cluster有没有了解过,怎么做到高可用的?redis的持久化机制,为啥不能用redis做专门的持久化数据库存储?
1. String
常用命令:
get、set、incr、decr、mget等
应用场景:
String是最常用的数据类型,普通的key/value都可以归为此类,value其实不仅是String,也可以是数字。
比如想知道什么时候封锁一个IP地址(访问超过几次)。INCRBY命令让这些变得很容易,通过原子递增保持计数。
实现方式:
m,decr等操作时会转成数值型进行计算,此时redisObject的encoding字段为int。
2.Hash
常用命令:
hget、hset、hgetall等
应用场景:
比如我们要存储一个用户的信息,包含以下信息:
用户ID,为查找的key
存储的value用户对象包含姓名name,年龄age,生日birthday 等信息
如果以普通的key/value结构存储,主要有以下两种存储方式:
第一种方式将用户id作为key,其他信息封装成对象以序列化的方式存储,如
set u001 "李三,18,20010101"
这种方式的缺点,增加了序列化/反序列化的开销;需要修改其中一项信息时,需要把整个对象取回,修改操作需要对并发进行保护,引入CAS等复杂问题。
第二种方式是这个用户信息有多少成员就存成多少个key-value对,用用户id+对应属性名称作为唯一的标识来取得对应属性的值,如:
mset user:001:name "李三 "user:001:age18 user:001:birthday "20010101"
虽然省去了序列化开销和并发问题,但是用户ID为重复存储,如果存在大量这样的数据,内存浪费较大。
redis提供的hash很好的解决了这个问题,redis的hash实际是内部存储的value为一个HashMap,并且提供了直接存取这个map的成员接口。如
hmset user:001 name "李三" age 18 birthday "20010101"
也就是说,key仍然是用户id,value是一个map,这个map的key是成员的属性名,value是属性值。
这里同时需要注意,Redis提供了接口(hgetall)可以直接取到全部的属性数据,但是如果内部Map的成员很多,那么涉及到遍历整个内部Map的操作,由于Redis单线程模型的缘故,这个遍历操作可能会比较耗时,而另其它客户端的请求完全不响应,这点需要格外注意。
实现方式:
Redis的Hash对应的Value内部实际就是一个HashMap,实际有两种不同的实现,如果成员较少时,Redis为了节省内存会采用类似一维数组方式存储,对应的value RedisObject的encoding为zipmap,当成员数量增大时会自动转成真正的HashMap,此时encoding为ht。
3.List
常用命令:
lpush,rpush,lpop,rpop,lrange,BLPOP(阻塞版)等。
应用场景:
最新消息排行。
消息队列。利用Lists的push的操作,将任务存储在list中,然后工作线程再用pop操作将任务取出进行执行。
实现方式:
redis list的实现是一个双向链表,可以支持反向查找和遍历,更方便操作,不过带来了部分额外的内存开销,redis内部的很多实现,包括发送缓冲队列等也都用的是这个数据结构。
4. Set
常用命令:
sadd,srem,spop,sdiff ,smembers,sunion 等。
应用场景:
set类似list,特殊之处是set可以自动排重。
set还提供了某个成员是否在一个set内的接口,这个也是list没有的。
比如在微博应用中,每个人的好友存在一个集合(set)中,这样求两个人的共同好友的操作,可能就只需要用求交集命令即可。
Redis还为集合提供了求交集、并集、差集等操作。
实现方式:
set内部实现是一个value永远为null的HashMap,实际就是通过hash的方式快速排重的。
5. Sort Set
常用命令:
zadd,zrange,zrem,zcard等
使用场景:
sorted set的使用场景与set类似,区别是set不是自动有序的,而sorted set可以通过用户额外提供一个优先级(score)的参数来为成员排序,并且是插入有序的,即自动排序。
比如:twitter 的public timeline可以以发表时间作为score来存储,这样获取时就是自动按时间排好序的。
比如:全班同学成绩的SortedSets,value可以是同学的学号,而score就可以是其考试得分,这样数据插入集合的,就已经进行了天然的排序。
另外还可以用Sorted Sets来做带权重的队列,比如普通消息的score为1,重要消息的score为2,然后工作线程可以选择按score的倒序来获取工作任务。让重要的任务优先执行。
需要精准设定过期时间的应用
比如你可以把上面说到的sorted set的score值设置成过期时间的时间戳,那么就可以简单地通过过期时间排序,定时清除过期数据了,不仅是清除Redis中的过期数据,你完全可以把Redis里这个过期时间当成是对数据库中数据的索引,用Redis来找出哪些数据需要过期删除,然后再精准地从数据库中删除相应的记录。
持久化RDB和AOF
2、了不了解tcp/udp,说下两者的定义,tcp为什么要三次握手和四次挥手?tcp怎么保证有序传输的,讲下tcp的快速重传和拥塞机制,知不知道time_wait状态,这个状态出现在什么地方,有什么用(参考quic)?
TCP协议
Transmission Control Protocol
传输控制协议,属于传输层通信协议,基于TCP的应用层协议有Http,smtp,ftp等
TCP的特性
-
面向连接: 传输数据之前会先建立连接,数据传输完毕之后释放连接
-
全双工通信:连接建立以后,通信双方能互相发送数据
-
安全可靠:通过TCP传送的数据不丢失,无差错,按序到达
-
TCP 使用校验和,确认和重传机制来保证可靠传输
-
数据以字节流的方式传输
-
传输效率较低,因为需要建立连接和发送确认包等
注意:TCP 并不能保证数据一定会被对方接收到,因为这是不可能的。TCP 能够做到的是,如果有可能,就把数据递送到接收方,否则就(通过放弃重传并且中断连接这一手段)通知用户。因此准确说 TCP 也不是 100% 可靠的协议,它所能提供的是数据的可靠递送或故障的可靠通知。
所谓三次握手,即建立TCP连接,需要客户端和服务端总共发送至少三个包确认连接的建立
TCP释放连接的过程(四次挥手)
通信结束之后,双方都需要释放连接,需要四次挥手
UDP协议
UDP 是一个简单的传输层协议。
UDP的特性
-
无连接。UDP的客户端和服务器不必存在长期连接的关系。UDP在发送数据报之前也不用先与服务端建立连接
-
不可靠。UDP 本身不提供确认,序列号,超时重传等机制。UDP 数据报可能在网络中被复制,被重新排序。即 UDP 不保证数据报会到达其最终目的地,也不保证各个数据报的先后顺序,也不保证每个数据报只到达一次。
-
数据报是有长度限制的。
-
UDP支持广播和多播。
-
传输效率高
-
3、知道udp是不可靠的传输,如果你来设计一个基于udp差不多可靠的算法,怎么设计?
4、http与https有啥区别?说下https解决了什么问题,怎么解决的?说下https的握手过程。
5、看你项目里面用了etcd,讲解下etcd干什么用的,怎么保证高可用和一致性?
6、既然你提到了raft算法,讲下raft算法的基本流程?raft算法里面如果出现脑裂怎么处理?有没有了解过paxos和zookeeper的zab算法,他们之前有啥区别?
7、你们后端用什么数据库做持久化的?有没有用到分库分表,怎么做的?
8、索引的常见实现方式有哪些,有哪些区别?MySQL的存储引擎有哪些,有哪些区别?InnoDB使用的是什么方式实现索引,怎么实现的?说下聚簇索引和非聚簇索引的区别?
9、有没有了解过协程?说下协程和线程的区别?
10、算法题一个,剑指offer第51题,数组中的重复数字?
1、主要针对自己最熟悉的项目,画出项目的架构图,主要的数据表结构,项目中使用到的技术点,项目的总峰值qps,时延,以及有没有分析过时延出现的耗时分别出现在什么地方,项目有啥改进的地方没有?
2、如果请求出现问题没有响应,如何定位问题,说下思路?
3、tcp 粘包问题怎么处理?
4、问了下缓存更新的模式,以及会出现的问题和应对思路?
5、除了公司项目之外,业务有没有研究过知名项目或做出过贡献?