一、引入原因
在分布式服务中,常常有如定时任务、库存更新这样的场景。
在定时任务中,如果不使用quartz这样的分布式定时工具,只是简单的使用定时器来进行定时任务,在服务分布式部署中,就有可能存在定时任务并发执行,造成一些问题。
在库存更新这样的场景中,我们服务对数据库同一条记录进行更新,并记录。对记录更新可以使用分布式锁,但对操作进行记录时,可能造成读未提交,造成记录错乱的情况。
在以上的场景中,我们引入了分布式事务锁。
二、分布式锁实现过程中的问题
问题一:异常导致锁没有释放
这个问题形成的原因就是程序在获取到锁之后,执行业务的过程中出现了异常,导致锁没有被释放。通俗的话说:上厕所的人死在了厕所里面,导致“坑位”资源死锁无法被释放。(当然这种情况出现的概率很小,但概率小不等于不存在。)
解决方案: 为redis的key设置过期时间,程序异常导致的死锁,在到达过期时间之后锁自动释放。也就说厕所门是电子锁,锁定的最长时间是有限制的,超过时长锁就会自动打开释放"坑位"资源。
问题二:获取锁与设置过期时间操作不是原子性的
上文中我们虽然获取到锁,也设置了过期时间,看似完美。但是在高并发的场景下仍然会出问题,因为“获取锁”与“设置过期时间”是两个redis操作,两个redis操作不是原子性的。
可能出现这种情况:就在获取锁之后,设置过期时间之前程序宕机了。锁被获取到了但没有设置过期时间,最后又成为死锁。
解决方案: 获取锁的同时设置过期时间
问题三:锁过期之后被别的线程重新获取与释放
这个问题出现的场景是:假如某个应用集群化部署存在多个进程实例,实例A、实例B。实例A获取到锁,但是执行过程超时了(数据库层面或其他层面导致操作执行超时)。超时之后锁被自动释放