写了一个定时任务,半小时执行一次,上线之后发现12个服务器都去执行了。
定时任务:读取ftp文件服务器上某个路径下的文件,然后解析文件提取每行特定列的字段,然后把符合条件的话单数据的ID、手机号等信息通过远程接口送给第三方。由于所有服务器都执行,导致所有服务器差不多在1min左右先后读取了同一个文件然后读取解析把相同数据传给第三方导致异常。
第一次修改:
定时任务加一个判断,先读取服务器ip地址,然后是特定的ip地址才可以执行,其他都不执行。方法很简单,问题能很快处理。但是有一个缺点,如果该台服务器出现故障则无法执行定时任务。
第二次修改:
没有使用redis或zk的分布式锁,而是用数据库的行锁帮忙。建一张表,只有一行数据。switch字段表示开关,决定是否开启定时任务,start_time字段表示最近一次定时任务开始执行的时间,status字段表示是否加锁防止其他服务器再执行。
id switch start_time status
1 1 2020/10/11 21:08:00 1
假设有两个事务A和B
事务A:
开始事务;
select * from schedule_status where id =1 for update;
update schedule_status set status= 0 where id=1;
提交事务;
事务B:
开始事务;
select * from schedule_status where id =1 for update;
update schedule_status set status= 0 where id=1;
提交事务;
如果事务A先执行了select,即使B也select到了status=1,但是事务A通过for update把该行数据锁住(排他锁),事务B只能查不能改。等事务A把status改为0,事务B则不能执行本次定时任务,等待下次时间点再争夺。
至于start_time字段是防止某台服务器在执行完定时任务之后在恢复status为1时出现了故障,所以需要每次执行定时任务时,遇到status为0之后,再通过当前时间-start_time是否超时30min左右,如果超时我们可以认为上次执行定时任务的服务器宕机之类的,此时我们接着返回true让先发现这个故障的服务器先执行,并且同时更新一下对应start_time。这样即使节点挂掉,也不影响下一次定时任务的执行。
如果使用分布式锁,需要给分布锁加一个超时时间,防止加锁后再解锁时出现故障,后面任务不再执行。再使用Quartz组件来处理,也可以让定时任务在服务器集群下只需要让集群中的一台运行。
北部白犀牛
北部白犀牛和南部白犀牛同属白犀亚种,与非洲南部的白犀在基因上存在较大差异。2018年3月19日,世界上最后一头雄性北方白犀牛“苏丹”在肯尼亚去世,终年45岁。
尽管犀牛角的交易在全球范围内被禁止,但在黑市内仍然热火朝天,在也门就有专门的犀牛角市场,在那里以犀牛角制成手柄的匕首是众多买家和卖家关注的焦点,是身份的象征。利益熏心的偷猎者每年都大量猎杀这些珍贵的白犀,而面对偷猎猖獗,非洲国家由于落后的经济技术无暇应对,这些问题已经导致北白犀成为即将灭绝在现代文明面前的大型动物。