版本:嵩山版
五、 MySQL 数据库
(一) 建表规约
- 【强制】 表达是与否概念的字段,必须使用 is_xxx 的方式命名,数据类型是 unsigned tinyint( 1 表示是, 0 表示否)。
说明: 任何字段如果为非负数,必须是 unsigned。
注意: POJO 类中的任何布尔类型的变量,都不要加 is 前缀,所以,需要在设置从 is_xxx 到 Xxx 的映射关系。数据库表示是与否的值,使用 tinyint 类型,坚持 is_xxx 的命名方式是为了明确其取值含义与取值范围。
正例: 表达逻辑删除的字段名 is_deleted, 1 表示删除, 0 表示未删除。 - 【强制】 表名、字段名必须使用小写字母或数字, 禁止出现数字开头,禁止两个下划线中间只出现数字。数据库字段名的修改代价很大,因为无法进行预发布,所以字段名称需要慎重考虑。
说明: MySQL 在 Windows 下不区分大小写,但在 Linux 下默认是区分大小写。因此,数据库名、表名、字段名,都不允许出现任何大写字母,避免节外生枝。 - 【强制】 表名不使用复数名词。
说明: 表名应该仅仅表示表里面的实体内容,不应该表示实体数量,对应于 DO 类名也是单数形式,符合表达习惯。 - 【强制】 禁用保留字,如 desc、 range、 match、 delayed 等, 请参考 MySQL 官方保留字。
- 【强制】 主键索引名为 pk_字段名;唯一索引名为 uk_字段名; 普通索引名则为 idx_字段名。
- 【强制】 小数类型为 decimal,禁止使用 float 和 double。
说明: 在存储的时候, float 和 double 都存在精度损失的问题,很可能在比较值的时候,得到不正确的结果。如果存储的数据范围超过 decimal 的范围,建议将数据拆成整数和小数并分开存储。 - 【强制】 如果存储的字符串长度几乎相等,使用 char 定长字符串类型。
- 【强制】 varchar 是可变长字符串,不预先分配存储空间,长度不要超过 5000,如果存储长度大于此值,定义字段类型为 text,独立出来一张表,用主键来对应,避免影响其它字段索引效率。
- 【强制】 表必备三字段: id, create_time, update_time。
说明: 其中 id 必为主键,类型为 bigint unsigned、单表时自增、步长为 1。 create_time, update_time的类型均为 datetime 类型,前者现在时表示主动式创建,后者过去分词表示被动式更新。 - 【推荐】 表的命名最好是遵循“业务名称_表的作用” 。
正例: alipay_task / force_project / trade_config - 【推荐】 库名与应用名称尽量一致。
- 【推荐】 如果修改字段含义或对字段表示的状态追加时,需要及时更新字段注释。
- 【推荐】 字段允许适当冗余,以提高查询性能,但必须考虑数据一致。冗余字段应遵循:
1) 不是频繁修改的字段。
2) 不是唯一索引的字段。
3) 不是 varchar 超长字段,更不能是 text 字段。 - 【推荐】 单表行数超过 500 万行或者单表容量超过 2GB,才推荐进行分库分表。
- 【参考】 合适的字符存储长度,不但节约数据库表空间、节约索引存储,更重要的是提升检索速度。
(二) 索引规约
- 【强制】 业务上具有唯一特性的字段,即使是组合字段,也必须建成唯一索引。
说明: 不要以为唯一索引影响了 insert 速度,这个速度损耗可以忽略,但提高查找速度是明显的; 另外,即使在应用层做了非常完善的校验控制,只要没有唯一索引,根据墨菲定律,必然有脏数据产生。 - 【强制】 超过三个表禁止 join。需要 join 的字段,数据类型保持绝对一致; 多表关联查询时,保证被关联的字段需要有索引。
说明: 即使双表 join 也要注意表索引、 SQL 性能。 - 【强制】 在 varchar 字段上建立索引时,必须指定索引长度,没必要对全字段建立索引,根据实际文本区分度决定索引长度。
说明: 索引的长度与区分度是一对矛盾体,一般对字符串类型数据,长度为 20 的索引,区分度会高达 90%以上。 - 【强制】 页面搜索严禁左模糊或者全模糊,如果需要请走搜索引擎来解决。
- 【推荐】 如果有 order by 的场景,请注意利用索引的有序性。 order by 最后的字段是组合索引的一部分,并且放在索引组合顺序的最后,避免出现 file_sort 的情况,影响查询性能。
正例: where a=? and b=? order by c; 索引: a_b_c
反例: 索引如果存在范围查询, 那么索引有序性无法利用,如: WHERE a>10 ORDER BY b; 索引 a_b 无法排序。 - 【推荐】 利用覆盖索引来进行查询操作, 避免回表。
说明: 如果一本书需要知道第 11 章是什么标题,会翻开第 11 章对应的那一页吗?目录浏览一下就好,这个目录就是起到覆盖索引的作用。
正例: 能够建立索引的种类分为主键索引、唯一索引、普通索引三种,而覆盖索引只是一种查询的一种效果,用 explain 的结果, extra 列会出现: using index。 - 【推荐】 SQL 性能优化的目标:至少要达到 range 级别, 要求是 ref 级别, 如果可以是 consts 最好。
说明:
1) consts 单表中最多只有一个匹配行(主键或者唯一索引),在优化阶段即可读取到数据。
2) ref 指的是使用普通的索引(normal index) 。
3) range 对索引进行范围检索。
反例: explain 表的结果, type=index,索引物理文件全扫描,速度非常慢,这个 index 级别比较 range 还低,与全表扫描是小巫见大巫。 - 【推荐】 建组合索引的时候,区分度最高的在最左边。
正例: 如果 where a=? and b=?, a 列的几乎接近于唯一值,那么只需要单建 idx_a 索引即可。
说明: 存在非等号和等号混合判断条件时,在建索引时,请把等号条件的列前置。如: where c>? and d=? 那么即使 c 的区分度更高,也必须把 d 放在索引的最前列, 即建立组合索引 idx_d_c。 - 【推荐】 防止因字段类型不同造成的隐式转换, 导致索引失效。
- 【参考】 创建索引时避免有如下极端误解:
1) 索引宁滥勿缺。 认为一个查询就需要建一个索引。
2) 吝啬索引的创建。 认为索引会消耗空间、 严重拖慢记录的更新以及行的新增速度。
3) 抵制惟一索引。 认为惟一索引一律需要在应用层通过“先查后插” 方式解决。
(三) SQL语句
- 【强制】 不要使用 count(列名)或 count(常量)来替代 count(), count()是 SQL92 定义的标准统计行数的语法,跟数据库无关,跟 NULL 和非 NULL 无关。
说明: count(*)会统计值为 NULL 的行,而 count(列名)不会统计此列为 NULL 值的行。 - 【强制】count(distinct col) 计算该列除 NULL 之外的不重复行数,注意 count(distinct col1,col2) 如果其中一列全为 NULL,那么即使另一列有不同的值,也返回为 0。
- 【强制】 当某一列的值全是 NULL 时, count(col)的返回结果为 0,但 sum(col)的返回结果为NULL,因此使用 sum()时需注意 NPE 问题。
- 【强制】 使用 ISNULL()来判断是否为 NULL 值。
- 【强制】 代码中写分页查询逻辑时,若 count 为 0 应直接返回,避免执行后面的分页语句。
- 【强制】 不得使用外键与级联,一切外键概念必须在应用层解决。
说明: 外键与级联更新适用于单机低并发,不适合分布式、高并发集群;级联更新是强阻塞,存在数据库更新风暴的风险;外键影响数据库的插入速度。 - 【强制】 禁止使用存储过程,存储过程难以调试和扩展,更没有移植性。
- 【强制】 数据订正(特别是删除或修改记录操作) 时,要先 select,避免出现误删除,确认无误才能执行更新语句。
- 【强制】 对于数据库中表记录的查询和变更,只要涉及多个表,都需要在列名前加表的别名(或表名)进行限定。
说明: 对多表进行查询记录、更新记录、删除记录时,如果对操作列没有限定表的别名(或表名),并且操作列在多个表中存在时,就会抛异常。 - 【推荐】 SQL 语句中表的别名前加 as,并且以 t1、 t2、 t3、 …的顺序依次命名。
说明: 1)别名可以是表的简称,或者是依照表在 SQL 语句中出现的顺序,以 t1、 t2、 t3 的方式命名。 2)别名前加 as 使别名更容易识别。 - 【推荐】 in 操作能避免则避免,若实在避免不了,需要仔细评估 in 后边的集合元素数量,控制在 1000 个之内。
- 【参考】 因国际化需要,所有的字符存储与表示,均采用 utf8 字符集, 那么字符计数方法需要注意。
说明:
SELECT LENGTH(“轻松工作”); 返回为 12
SELECT CHARACTER_LENGTH(“轻松工作”); 返回为 4 - 【参考】 TRUNCATE TABLE 比 DELETE 速度快,且使用的系统和事务日志资源少,但 TRUNCATE 无事务且不触发 trigger,有可能造成事故,故不建议在开发代码中使用此语句。
说明: TRUNCATE TABLE 在功能上与不带 WHERE 子句的 DELETE 语句相同。
(四) ORM 映射
- 【强制】 在表查询中,一律不要使用 * 作为查询的字段列表,需要哪些字段必须明确写明。
说明: 1)增加查询分析器解析成本。 2)增减字段容易与 resultMap 配置不一致。 3)无用字段增加网络消耗,尤其是 text 类型的字段。 - 【强制】 POJO 类的布尔属性不能加 is,而数据库字段必须加 is_,要求在 resultMap 中进行字段与属性之间的映射。
说明: 参见定义 POJO 类以及数据库字段定义规定, 在 sql.xml 增加映射,是必须的。 - 【强制】 不要用 resultClass 当返回参数,即使所有类属性名与数据库字段一一对应,也需要定义;反过来,每一个表也必然有一个与之对应。
说明: 配置映射关系,使字段与 DO 类解耦,方便维护。 - 【强制】 sql.xml 配置参数使用: #{}, #param# 不要使用${} 此种方式容易出现 SQL 注入。
- 【强制】 不允许直接拿 HashMap 与 Hashtable 作为查询结果集的输出。
- 【强制】 更新数据表记录时,必须同时更新记录对应的 update_time 字段值为当前时间。
- 【推荐】 不要写一个大而全的数据更新接口。执行 SQL 时,不要更新无改动的字段,一是易出错;二是效率低;三是增加 binlog 存储。
- 【参考】 @Transactional 事务不要滥用。事务会影响数据库的 QPS,另外使用事务的地方需要考虑各方面的回滚方案。
- 【参考】 中的 compareValue 是与属性值对比的常量,一般是数字,表示相等时带上此条件; 表示不为空且不为 null 时执行; 表示不为 null 值时执行。
六、工程结构
(一) 应用分层
- 【推荐】 根据业务架构实践,结合业界分层规范与流行技术框架分析,推荐分层结构如图所示,默认上层依赖于下层,箭头关系表示可直接依赖。
• 终端显示层:各个端的模板渲染并执行显示的层。当前主要是velocity渲染,JS渲染等。
• Web 层:主要是对访问控制进行转发,各类基本参数校验,或者不复用的业务简单处理等。
• Service 层:相对具体的业务逻辑服务层。
• Manager 层:通用业务处理层,它有如下特征:
2) 对 Service 层通用能力的下沉,如缓存方案、中间件通用处理。
3) 与 DAO 层交互,对多个 DAO 的组合复用。
• DAO 层:数据访问层,与底层 MySQL等进行数据交互。 - 【参考】 分层领域模型规约:
• DO(Data Object): 此对象与数据库表结构一一对应,通过 DAO 层向上传输数据源对象。
• DTO(Data Transfer Object):数据传输对象, Service 或 Manager 向外传输的对象。
• BO(Business Object):业务对象, 可以由 Service 层输出的封装业务逻辑的对象。
• Query:数据查询对象,各层接收上层的查询请求。 注意超过 2 个参数的查询封装,禁止使用 Map 类来传输。
• VO(View Object):显示层对象,通常是 Web 向模板渲染引擎层传输的对象。
七、设计规约
- 【强制】存储方案和底层数据结构的设计获得评审一致通过,并沉淀成为文档。
说明:有缺陷的底层数据结构容易导致系统风险上升,可扩展性下降。
正例: 评审内容包括存储介质选型、表结构设计能否满足技术方案、存取性能和存储空间能否满足业务发展、表或字段之间的辩证关系、字段名称、字段类型、索引等;数据结构变更(如在原有表中新增字段)也需要进行评审通过后上线。 - 【强制】在需求分析阶段,如果与系统交互的 User 超过一类并且相关的 User Case 超过 5 个,使用用例图来表达更加清晰的结构化需求。
- 【强制】 如果某个业务对象的状态超过 3 个,使用状态图来表达并且明确状态变化的各个触发条件。
说明: 状态图的核心是对象状态,首先明确对象有多少种状态,然后明确两两状态之间是否存在直接转换关系,再明确触发状态转换的条件是什么。 - 【强制】 如果系统中某个功能的调用链路上的涉及对象超过 3 个,使用时序图来表达并且明确各调用环节的输入与输出。
说明: 时序图反映了一系列对象间的交互与协作关系,清晰立体地反映系统的调用纵深链路。 - 【强制】 如果系统中模型类超过 5 个,并且存在复杂的依赖关系,使用类图来表达并且明确类之间的关系。
- 【强制】 如果系统中超过 2 个对象之间存在协作关系,并且需要表示复杂的处理流程,使用活动图来表示。
说明: 活动图是流程图的扩展,增加了能够体现协作关系的对象泳道,支持表示并发等。 - 【推荐】 系统架构设计时明确以下目标:
⚫ 确定系统边界。确定系统在技术层面上的做与不做。
⚫ 确定系统内模块之间的关系。确定模块之间的依赖关系及模块的宏观输入与输出。
⚫ 确定指导后续设计与演化的原则。使后续的子系统或模块设计在一个既定的框架内和技术方向上继续演化。
⚫ 确定非功能性需求。非功能性需求是指安全性、可用性、可扩展性等。 - 【推荐】 需求分析与系统设计在考虑主干功能的同时,需要充分评估异常流程与业务边界。
- 【推荐】 类在设计与实现时要符合单一原则。
说明: 单一原则最易理解却是最难实现的一条规则,随着系统演进,很多时候,忘记了类设计的初衷。 - 【推荐】 谨慎使用继承的方式来进行扩展,优先使用聚合/组合的方式来实现。
说明: 不得已使用继承的话,必须符合里氏代换原则,此原则说父类能够出现的地方子类一定能够出现,比如, “把钱交出来” ,钱的子类美元、欧元、人民币等都可以出现。 - 【推荐】 系统设计阶段,根据依赖倒置原则,尽量依赖抽象类与接口,有利于扩展与维护。
说明: 低层次模块依赖于高层次模块的抽象,方便系统间的解耦。 - 【推荐】 系统设计阶段,注意对扩展开放,对修改闭合。
说明: 极端情况下,交付的代码是不可修改的,同一业务域内的需求变化,通过模块或类的扩展来实现。 - 【推荐】 系统设计阶段,共性业务或公共行为抽取出来公共模块、公共配置、公共类、公共方法等, 在系统中不出现重复代码的情况,即 DRY 原则( Don’t Repeat Yourself) 。
说明: 随着代码的重复次数不断增加,维护成本指数级上升。 随意复制和粘贴代码,必然会导致代码的重复,在维护代码时,需要修改所有的副本,容易遗漏。必要时抽取共性方法,或者抽象公共类,甚至是组件化。
正例: 一个类中有多个 public 方法,都需要进行数行相同的参数校验操作,这个时候请抽取:private boolean checkParam(DTO dto) {…} - 【推荐】 避免如下误解: 敏捷开发 = 讲故事 + 编码 + 发布。
说明: 敏捷开发是快速交付迭代可用的系统,省略多余的设计方案,摒弃传统的审批流程,但核心关键点上的必要设计和文档沉淀是需要的。 - 【参考】 设计文档的作用是明确需求、理顺逻辑、后期维护,次要目的用于指导编码。
说明: 避免为了设计而设计,系统设计文档有助于后期的系统维护和重构,所以设计结果需要进行分类归档保存。 - 【参考】 可扩展性的本质是找到系统的变化点,并隔离变化点。
- 【参考】 设计的本质就是识别和表达系统难点。
说明: 识别和表达完全是两回事,很多人错误地认为识别到系统难点在哪里,表达只是自然而然的事情,但是大家在设计评审中经常出现语焉不详,甚至是词不达意的情况。准确地表达系统难点需要具备如下能力: 表达规则和表达工具的熟练性、抽象思维和总结能力的局限性、基础知识体系的完备性、深入浅出的生动表达力。 - 【参考】 代码即文档的观点是错误的,清晰的代码只是文档的某个片断,而不是全部。
说明: 代码的深度调用,模块层面上的依赖关系网,业务场景逻辑,非功能性需求等问题是需要相应的文档来完整地呈现的。