记一次truncate table引发的线上问题
不可复现的线上问题
在一个风和日丽的下午,生产环境突然报出一个上传文件的功能不可用,于是我马上打开chrome浏览器自己测试,发现浏览器返回的是跨域问题
无奈,只得找到前端一同解决,随手也查看了线上日志,发现报一个java.io.FileNotFoundException: MultipartFile resource [file] cannot be resolved to absolute file path和com.alibaba.fastjson.JSONException: write javaBean error
直觉告诉我问题应该在后端,于是我尝试在开发和测试环境复现这个bug,很遗憾,无论我怎么测,开发和测试环境都导入正常,因为导入是通用接口,于是我测试了其他模块的导入,也都是正常的.
加日志
第二天,找不到报错原因的我只能默默的加上了日志,拦截器,为了e快速定位问题我在aop,controller,service中都加了日志,最终发现Easyexcel已经解析了上传的excel文件,但是还是报FileNotFoundException,于是我问了同事知道使用@RequestPart和@RequestParam注解上传文件,Spring会在/tmp/tomcat.1698326604572493483.8080/work/Tomcat/localhost/ROOT/目录下创建临时文件,于是我怀疑是不是临时文件没有创建导致的FileNotFoundException
日志写错导致走了弯路
加了日志后我又在生产环境上传了文件发现这次多了一个错误FileNotFoundException: /tmp/tomcat.1698326604572493483.8080/work/Tomcat/localhost/ROOT/upload_83cfb092_102b_4a54_a63e_3c1092285a5f_00000009.tmp (没有那个文件或目录),这让我坚定的认为就是上传文件的问题,于是我改了配置tomcat:
basedir: /data/temp,修改了默认的临时文件目录,我信心满满的又一次发版,很遗憾还是报错.百度之后才发现原来是日志中获取了一次流,而解析excel时也需要获取流,文件流获取两次导致的异常,瞬间感觉自己在bug的道路上渐行渐远.
修改日志定位错误
于是我修改了日志,发现报FileNotFoundException的地方是在AOP捕获到异常后,推送钉钉消息导致的.
在推送钉钉消息中会把参数转为json,使用的是fastjson的JSON.toJSONString(),因为文件流对象只能获取一次,在Easyexcel解析时已经获取了一次,这里就会报FileNotFoundException,修改了AOP,先打印logger再推送钉钉消息,就看到下面的日志
最终确定是service中的远程调用报了空指针,于是找到对应的服务,查询日志后终于发现了罪魁祸首
找到对应的sql,发现删除数据使用的是truncate table,原来上个月DBA修改了数据库账户,应该是没有赋truncate table权限,于是默默的改为delete,内心终于稍稍轻松了些,于是再次发版,成功解决了线上问题.
反思
解决这次线上bug耗时两天,其实中间走了太多弯路,虽然打印了日志,但是忽略了AOP中catch到异常后应该先打印报错日志,避免其他代码抛异常,导致service方法中的异常不能正常打印.还有切记远程调用时应先判断调用是否成功,再进行其他操作,报NPE就是因为远程调用失败,返回的data是Null,但是没有判断直接取值导致NPE.两天中我一度怀疑自己的能力,感觉自己解决不了这个bug,也跑去问了小组的负责人和公司的大牛,其实还是自己经验不足,应该先排查代码,这种bug半天就能搞定.但是这次解决线上bug的经历也让我明白,遇到事情不要轻言放弃,bug终会解决.
加油(ง •_•)ง,我是一个在学习路上砥砺前行的小菜鸟.
第一次写博客,有不足之处还望各位多多指正.