阿里巴巴编码规范解读(二)-异常日志

第二部分 异常日志

错误码

1.【强制】

错误码的制定原则:快速溯源、简单易记、沟通标准化。

说明: 错误码想得过于完美和复杂,就像康熙字典中的生僻字一样,用词似乎精准,但是字典不容易随身
携带并且简单易懂。

正例: 错误码回答的问题是谁的错?错在哪? 1)错误码必须能够快速知晓错误来源,可快速判断是谁的问题。 2)错误码易于记忆和比对(代码中容易 equals)。 3)错误码能够脱离文档和系统平台达到线下轻量化地自由沟通的目的。

2.【强制】

错误码不体现版本号和错误等级信息。

说明: 错误码以不断追加的方式进行兼容。错误等级由日志和错误码本身的释义来决定。

3.【强制】

全部正常,但不得不填充错误码时返回五个零:00000。

4.【强制】

错误码为字符串类型,共 5 位,分成两个部分:错误产生来源+四位数字编号。

说明: 错误产生来源分为 A/B/C, A 表示错误来源于用户,比如参数错误,用户安装版本过低,用户支付
超时等问题; B 表示错误来源于当前系统,往往是业务逻辑出错,或程序健壮性差等问题; C 表示错误来源
于第三方服务,比如 CDN 服务出错,消息投递超时等问题;四位数字编号从 0001 到 9999,大类之间的
步长间距预留 100,参考文末附表3。

个人理解:错误来源如果按照阿里的划分,其实是不够细的,比如用户登录,从前端系统,到网关,到SSO模块,到数据层模块,到底是哪个模块出了问题,单从错误码是不清楚的,所以个人建议在多个模块调用时,需要拿出一位标识是哪个模块出现了问题,便于错误的定位。阿里、京东有错误监控,监控注解捕获异常,发送短信到开发人员手机。记得2017年京东双十一在上午一个小时左右收到了600多条短信。通过短信的中的信息,可以看到发生异常的系统。但一般公司模块划分并没有大公司这么细,也不具有这么完善的监控系统的,所以,需要在错误码中标识错误的来源系统,当我们在测试问题时,可以从错误码判断错误的来源系统,然后根据错误码,从ELK中查找问题的真正原因。(ELK中保存系统调用链)。

5.【强制】

编号不与公司业务架构,更不与组织架构挂钩,一切与平台先到先申请的原则进行,审批生效,编号即被永久固定。

为了能尽快定位问题的发生地,大公司对错误码的管理是很科学严格的,而小公司一般自己内部定义即可。

6.【强制】

错误码使用者避免随意定义新的错误码。
说明:尽可能在原有错误码附表中找到语义相同或者相近的错误码在代码中使用即可。

7.【强制】

错误码不能直接输出给用户作为提示信息使用。

说明: 堆栈( stack_trace)、错误信息(error_message)、错误码( error_code)、提示信息( user_tip)
是一个有效关联并互相转义的和谐整体,但是请勿互相越俎代庖。

堆栈:一般需要在异常日志打印时抛出,通过log.error("",e)进行抛出。
错误信息:通过log.error("用户id为:{}",uid,e)方式输出。
错误码:return AjaxResult.success(HttpStatus.OK);
提示信息:提示信息一般根据后台错误码在前端页面封装弹出。

8.【推荐】

错误码之外的业务独特信息由 error_message来承载,而不是让错误码本身涵盖过多具体业务属性。

9.【推荐】

在获取第三方服务错误码时,向上抛出允许本系统转义,由 C 转为 B,并且在错误信息上带上原有的第三方错误码。

建议将原系统错误码转化为小数几个错误码,但需要在异常日志中将原系统错误码打印出来。

10.【参考】

错误码分为一级宏观错误码、二级宏观错误码、三级宏观错误码。

说明: 在无法更加具体确定的错误场景中,可以直接使用一级宏观错误码,分别是: A0001(用户端错误)、 B0001(系统执行出错)、 C0001(调用第三方服务出错)。

正例:调用第三方服务出错是一级,中间件错误是二级,消息服务出错是三级。

11.【参考】

错误码的后三位编号与 HTTP 状态码没有任何关系。

12.【参考】

错误码尽量有利于不同文化背景的开发者进行交流与代码协作。
说明:英文单词形式的错误码不利于非英语母语国家(如阿拉伯语、希伯来语、俄罗斯语等)之间的开发
者互相协作。

13.【参考】

错误码即人性,感性认知+口口相传,使用纯数字来进行错误码编排不利于感性记忆和分类。

说明: 数字是一个整体,每位数字的地位和含义是相同的。

反例: 一个五位数字 12345,第 1 位是错误等级,第 2 位是错误来源, 345 是编号,人的大脑不会主动地
分辨每位数字的不同含义。

异常处理

1.【强制】

Java 类库中定义的可以通过预检查方式规避的 RuntimeException 异常不应该通过catch 的方式来处理,比如: NullPointerException, IndexOutOfBoundsException 等等。
说明:无法通过预检查的异常除外,比如,在解析字符串形式的数字时,可能存在数字格式错误,不得不通过 catch NumberFormatException 来实现。

正例: if (obj != null) {...}
反例: try { obj.method(); } catch (NullPointerException e) {}  
个人理解:尽量通过代码预检查方式规避掉一些异常,而不是写代码去捕获该类异常。

2.【强制】

异常不要用来做流程控制,条件控制。

说明: 异常设计的初衷是解决程序运行中的各种意外情况,且异常的处理效率比条件判断方式要低很多。

个人理解:异常的处理,其实效率是很低的。因为异常是查找方法的异常表,从满足条件的异常把异常链抛出。对于异常表查找的效率比条件判断方式要低很多。

3.【强制】

catch时请分清稳定代码和非稳定代码,稳定代码指的是无论如何不会出错的代码。对于非稳定代码的 catch 尽可能进行区分异常类型,再做对应的异常处理。

说明:对大段代码进行 try-catch,使程序无法根据不同的异常做出正确的应激反应,也不利于定位问题,这是一种不负责任的表现。
正例:用户注册的场景中,如果用户输入非法字符, 或用户名称已存在, 或用户输入密码过于简单,在程序上作出分门别类的判断,并提示给用户。

个人理解:就是要求不要整段代码的try{}catch(){},只对整段非稳定代码进行catch,且需要区分异常类型。

4.【强制】

捕获异常是为了处理它,不要捕获了却什么都不处理而抛弃之,如果不想处理它,请将该异常抛给它的调用者。最外层的业务使用者,必须处理异常,将其转化为用户可以理解的内容。

5.【强制】

事务场景中,抛出异常被catch后,如果需要回滚,一定要注意手动回滚事务。

6.【强制】

finally 块必须对资源对象、流对象进行关闭,有异常也要做 try-catch。
说明: 如果 JDK7 及以上,可以使用 try-with-resources 方式。

7.【强制】

不要在 finally 块中使用 return。
说明:try块中的return语句执行成功后,并不马上返回,而是继续执行 finally 块中的语句,如果此处存
在 return 语句,则在此直接返回,无情丢弃掉 try 块中的返回点。

反例:
private int x = 0;
public int checkReturn() {
try {
// x 等于 1,此处不返回
return ++x;
} finally {
// 返回的结果是 2
   return ++x;
  }
}
个人理解:请记住:finally中的返回点会压制住try()catch()中的返回点,同时会压制住catch()中的异常的抛出。所以finally中不要再抛出异常了。

8.【强制】

捕获异常与抛异常,必须是完全匹配,或者捕获异常是抛异常的父类。
说明: 如果预期对方抛的是绣球,实际接到的是铅球,就会产生意外情况。

9.【强制】

在调用 RPC、二方包、或动态生成类的相关方法时,捕捉异常必须使用 Throwable类来进行拦截。
说明: 通过反射机制来调用方法,如果找不到方法,抛出 NoSuchMethodException。什么情况会抛出
NoSuchMethodError 呢?二方包在类冲突时,仲裁机制可能导致引入非预期的版本使类的方法签名不匹配,
或者在字节码修改框架(比如: ASM)动态创建或修改类时,修改了相应的方法签名。这些情况,即使代
码编译期是正确的,但在代码运行期时,会抛出 NoSuchMethodError。

个人理解:在金融风控系统中,经常会用到动态生成类,此时,必须用Throwable进行捕获异常。
一方包:本工程中的各模块的相互依赖
二方包:公司内部的依赖库,一般指公司内部的其他项目发布的jar包
三方包:公司之外的开源库, 比如apache、ibm、google等发布的依赖

10.【推荐】

方法的返回值可以为 null,不强制返回空集合,或者空对象等,必须添加注释充分说明什么情况下会返回 null值。
说明:本手册明确防止 NPE (空指针异常)是调用者的责任。即使被调用方法返回空集合或者空对象,对调用者来说,也并非高枕无忧,必须考虑到远程调用失败、 序列化失败、运行时异常等场景返回 null 的情况。

11.【推荐】

防止 NPE,是程序员的基本修养,注意 NPE 产生的场景:
1) 返回类型为基本数据类型,return 包装数据类型的对象时,自动拆箱有可能产生 NPE。

反例: public int f() { return Integer 对象}, 如果为 null,自动解箱抛 NPE。

2) 数据库的查询结果可能为 null。
3) 集合里的元素即使 isNotEmpty,取出的数据元素也可能为 null。
4) 远程调用返回对象时,一律要求进行空指针判断,防止 NPE。
5) 对于 Session 中获取的数据,建议进行 NPE 检查,避免空指针。
6) 级联调用 obj.getA().getB().getC();一连串调用,易产生 NPE。

正例: 使用 JDK8 的 Optional 类来防止 NPE 问题。

12.【推荐】

定义时区分 unchecked / checked 异常,避免直接抛出 new RuntimeException(),
更不允许抛出 Exception 或者 Throwable,应使用有业务含义的自定义异常。推荐业界已定义过的自定义异常,如: DAOException / ServiceException 等。

13.【参考】

对于公司外的 http/api 开放接口必须使用“错误码” ;而应用内部推荐异常抛出;
跨应用间 RPC 调用优先考虑使用 Result 方式,封装 isSuccess()方法、 “错误码” 、 “错误
简短信息” ;而应用内部推荐异常抛出。
说明: 关于 RPC 方法返回方式使用 Result 方式的理由:
1)使用抛异常返回方式,调用方如果没有捕获到就会产生运行时错误。
2)如果不加栈信息,只是 new 自定义异常,加入自己的理解的 error message,对于调用端解决问题的帮助不会太多。如果加了栈信息,在频繁调用出错的情况下,数据序列化和传输的性能损耗也是问题。

个人理解:之前在美的工作时,我们部门的技术负责人建议内部RPC直接抛出异常,他之前是360的一个技术负责人,说当时在360当时是这么处理的,说RPC相当于内部系统调用,直接抛出异常让调用者处理异常即可,但是阿里、京东工作时,都是通过简单封装的方式的,因为考虑到RPC如果抛出大量的堆栈信息,传输占用网络资源,其次就是调用方如果没有捕获,因为上游系统出错并且获取不到值,本系统如果没有捕获,则产生运行时异常。对异常的处理代价相对封装后,返回Result的处理方式是要低的。

14.【参考】

避免出现重复的代码( Don’t Repeat Yourself) ,即 DRY 原则。
说明: 随意复制和粘贴代码,必然会导致代码的重复,在以后需要修改时,需要修改所有的副本,容易遗漏。
必要时抽取共性方法,或者抽象公共类,甚至是组件化。

正例: 一个类中有多个 public 方法,都需要进行数行相同的参数校验操作,这个时候请抽取:
private boolean checkParam(DTO dto) {...}  

日志规约

1.【强制】

应用中不可直接使用日志系统( Log4j、 Logback) 中的 API,而应依赖使用日志框架
( SLF4J、 JCL–Jakarta Commons Logging) 中的 API,使用门面模式的日志框架,有利于维护和
各个类的日志处理方式统一。

说明: 日志框架( SLF4J、 JCL–Jakarta Commons Logging)的使用方式(推荐使用 SLF4J)

使用 SLF4J:
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
private static final Logger logger = LoggerFactory.getLogger(Test.class);
使用 JCL:
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
private static final Log log = LogFactory.getLog(Test.class);
个人建议:采用slf4j+logback框架进行日志处理。

2.【强制】

所有日志文件至少保存 15 天,因为有些异常具备以“周” 为频次发生的特点。 对于当天日志,以“应用名.log” 来保存,保存在/home/admin/应用名/logs/目录下,过往日志格式为: {logname}.log.{保存日期},日期格式: yyyy-MM-dd
说明: 以 mppserver 应用为例,日志保存在/home/admin/mppserver/logs/mppserver.log,历史日志
名称为 mppserver.log.2016-08-01

个人建议:金融数据需要根据国家规定,保存日志3年时间。还有要区分操作日志和系统日志。

3.【强制】

应用中的扩展日志( 如打点、临时监控、访问日志等) 命名方式:
appName_logType_logName.log。 logType:日志类型, 如 stats/monitor/access 等; logName:日志描 述。这种命名的好处:通过文件名就可知道日志文件属于什么应用,什么类型,什么目的,也有利于归类查找。
说明: 推荐对日志进行分类, 如将错误日志和业务日志分开存放,便于开发人员查看,也便于通过日志对系
统进行及时监控。

4.【强制】

在日志输出时,字符串变量之间的拼接使用占位符的方式。
说明: 因为 String 字符串的拼接会使用 StringBuilder 的 append()方式,有一定的性能损耗。使用占位符仅
是替换动作,可以有效提升性能。

正例: logger.debug("Processing trade with id: {} and symbol: {}", id, symbol);  

5.【强制】

对于 trace/debug/info 级别的日志输出,必须进行日志级别的开关判断。 说明: 虽然在 debug(参数)的方法体内第一行代码 isDisabled(Level.DEBUG_INT)为真时( Slf4j 的常见实现Log4j 和 Logback),就直接 return,但是参数可能会进行字符串拼接运算。此外,如果 debug(getName())这种参数内有 getName()方法调用,无谓浪费方法调用的开销。

正例:
// 如果判断为真,那么可以输出 trace 和 debug 级别的日志
if (logger.isDebugEnabled()) {
    logger.debug("Current ID is: {} and name is: {}", id, getName());
}

6.【强制】

避免重复打印日志,浪费磁盘空间,务必在 log4j.xml 中设置 additivity=false。

正例: <logger name="com.taobao.dubbo.config" additivity="false">  

7.【强制】

生产环境禁止直接使用 System.out 或 System.err 输出日志或使用e.printStackTrace()打印异常堆栈。
说明: 标准日志输出与标准错误输出文件每次 Jboss 重启时才滚动,如果大量输出送往这两个文件,容易
造成文件大小超过操作系统大小限制。

8.【强制】

异常信息应该包括两类信息:案发现场信息和异常堆栈信息。如果不处理,那么通过关键字 throws 往上抛出。

正例: logger.error(各类参数或者对象 toString() + "_" + e.getMessage(), e);  

9.【强制】

日志打印时禁止直接用 JSON 工具将对象转换成 String。
说明: 如果对象里某些 get 方法被重写,存在抛出异常的情况,则可能会因为打印日志而影响正常业务流
程的执行。

正例: 打印日志时仅打印出业务相关属性值或者调用其对象的 toString()方法。
个人理解:如果确定get没有被改写,为了方便,还是可以支持JSON将信息转成String的。

10.【推荐】

谨慎地记录日志。生产环境禁止输出 debug 日志; 有选择地输出 info 日志; 如果使用warn 来记录刚上线时的业务行为信息,一定要注意日志输出量的问题,避免把服务器磁盘撑爆,并记得及时删除这些观察日志。

说明: 大量地输出无效日志,不利于系统性能提升,也不利于快速定位错误点。 记录日志时请思考:这些
日志真的有人看吗?看到这条日志你能做什么?能不能给问题排查带来好处?
个人理解:生产环境是禁止输出debug日志的,之前在京东,有同事就不小心将某些类的日志输出为debug,当时导致cpu飙升80%多,后面排查才发现日志级别整为debug了。生产环境可以使用info日志隔离级别,但是info内容一定要控制输出量,在高并发环境下,禁止大量输出info隔离级别日志,仅保证该日志对问题查找有效才输出。

11.【推荐】

可以使用 warn 日志级别来记录用户输入参数错误的情况,避免用户投诉时,无所适从。如非必要,请不要在此场景打出 error 级别,避免频繁报警。
说明: 注意日志输出的级别, error 级别只记录系统逻辑出错、异常或者重要的错误信息。

个人理解:在京东全球购中,日志是采用英语写的,warn日志隔离级别记录用户的相关行为。

12.【推荐】

尽量用英文来描述日志错误信息,如果日志中的错误信息用英文描述不清楚的话使用中文描述即可,否则容易产生歧义。

说明: 国际化团队或海外部署的服务器由于字符集问题,使用全英文来注释和描述日志错误信息。

参考《阿里巴巴开发手册》

链接:https://pan.baidu.com/s/1CiAuYu0DolpiPjpVEBYHdg
提取码:7203

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值