【阿里规约】阿里开发手册解读——数据库和ORM篇

程序员小海绵【vincewm】

已于 2024-07-22 13:50:52 修改

阅读量2.4k

点赞数 19

分类专栏： Java学习路线 MySQL数据库文章标签：数据库 java 索引 SQL mysql

于 2024-03-12 07:45:00 首次发布

本文链接：https://blog.csdn.net/qq_40991313/article/details/135678947

版权

Java学习路线同时被 2 个专栏收录

131 篇文章 226 订阅

订阅专栏

MySQL数据库

13 篇文章 5 订阅

订阅专栏

导航：

【Java笔记+踩坑汇总】Java基础+JavaWeb+SSM+SpringBoot+SpringCloud+瑞吉外卖/谷粒商城/学成在线+设计模式+面试题汇总+性能调优/架构设计+源码解析

阿里规约PDF：

阿里巴巴开发手册.pdf - 蓝奏云

1.3.5.2 varchar和char类型的区别、适用场景

1.3.5.3 varchar和text类型的区别、适用场景

一、建表规约

1.1 库

命名：库名与应用名称尽量一致；

1.2 表

大小写：MySQL表名不能有大写字母。因为MySQL 在 Windows 下不区分大小写，但在 Linux 下默认是区分大小写。
复数：不可使用复数。
不可使用保留字：例如不能命名为add,from,set等。
业务名称_表的作用：建议命名“业务名称_表的作用”，例如：
- 用户信息表：user_info
- 产品信息表：product_info
- 客户订单关联表：customer_order_relation
- 日志记录表：log_record
- 文章评论表：article_comment
- 供应商产品关联表：supplier_product_relation
- 员工考勤记录表：employee_attendance_record

1.3 字段

1.3.1 基础命名规范

命名要慎重：字段名的修改代价很大，所以必须要慎重；
大小写：MySQL字段名不能有大写字母。因为MySQL 在 Windows 下不区分大小写，但在 Linux 下默认是区分大小写，大小写混用会出问题。
保留字：不可使用保留字。例如不能命名为add,from,set等。

1.3.2 基本规范

注释：字段含义改变时，及时更新注释；
合理冗余：多读少写、长度短、非唯一索引的字段可以冗余，以降低连表查询的次数。
关联字段类型：要关联查询的两个字段，数据类型必须一致。如果不一致会导致索引失效，索引和索引失效场景具体可以参考顶部导航文章中的“MySQL高级篇”；
分库分表依据：单表数据量五百万条数据，或者容量2GB。
三大必备字段：主键、创建时间、修改时间。即id, create_time（或者命名为gmt_create）, update_time（或者命名为gmt_modified）

参考：

MySQL高级篇——索引失效的11种情况_mysql索引失效的几种情况-CSDN博客

一篇文章搞懂MySQL的分库分表，从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案-CSDN博客

1.3.3 布尔型字段

结构：is_xxx
数据类型：unsigned tinyint
值：1 表示是，0 表示否
对应实体类变量：虽然数据库必须命名成is_xxx，但是该表对应的实体类成员变量不能命名为isXxx，否则会导致序列号失败。所系需要在 resultMap 中进行
字段与属性之间的映射。

为什么强制 boolean 类型变量不能使用 is 开头？

为了防止序列化失败。

lombok序列化失败：javaBeans规范boolean变量的getter方法是isXXX()，其他变量的getter方法是getXXX()。lombok遵循javaBeans规范，如果一个变量是boolean isSuccess;在注解@Data或@Getter生成getter方法的时候，它会生成isSuccess()方法，而不是isIsSucess()方法。这也是lombok的一个大坑。
rpc框架序列号失败：在一些rpc框架里面，当反向解析读取到isSuccess()方法的时候，rpc框架会“以为”其对应的属性值是success，而实际上其对应的属性值是isSuccess，导致属性值获取不到，从而抛出异常。

《阿里规约》原文：

【强制】表达是与否概念的字段，必须使用 is_xxx 的方式命名，数据类型是 unsigned

tinyint （1 表示是，0 表示否）。

说明：任何字段如果为非负数，必须是 unsigned 。

注意： POJO 类中的任何布尔类型的变量，都不要加 is 前缀，所以，需要在< resultMap >设置从 is_xxx

到 Xxx 的映射关系。数据库表示是与否的值，使用 tinyint 类型，坚持 is_xxx 的命名方式是为了明确其取

值含义与取值范围。

正例：表达逻辑删除的字段名 is_deleted ，1 表示删除，0 表示未删除。

1.3.4 小数

类型：decimal。主要是为了防止丢失精度。

【强制】小数类型为 decimal ，禁止使用 float 和 double 。

说明：在存储的时候，float 和 double 都存在精度损失的问题，很可能在比较值的时候，得到不正确的

结果。如果存储的数据范围超过 decimal 的范围，建议将数据拆成整数和小数并分开存储。

1.3.5 字符串

1.3.5.1 基本规范

长度几乎固定字段：使用char类型。例如电话号、身份证字段类型char(11)即可，效率要比varchar(11)更高。因为实际存储时，varchar会根据实际输入的内容占用的长度进行存储，因此占用的存储空间是实际内容长度+可变长字段长度（当varchar使用长度≤255时使用一个字节记录，长度超出255时使用二个字节记录）。
超长字段：长度超过 5000的超长字段，一律使用text类型，并将该字段独立出一个表。因为text、blog类型会导致索引失效；不使用varchar是因为varchar(5000)太长，建索引后非聚簇索引树过于占用磁盘空间。

参考：

MySQL高级篇——存储引擎和索引-CSDN博客

【强制】如果存储的字符串长度几乎相等，使用 char 定长字符串类型。

【强制】 varchar 是可变长字符串，不预先分配存储空间，长度不要超过 5000，如果存储长

度大于此值，定义字段类型为 text ，独立出来一张表，用主键来对应，避免影响其它字段索

引效率。

1.3.5.2 varchar和char类型的区别、适用场景

长度：

char：固定长度的字符串
varchar：可变长度的字符串。

存储方式：

char：长度固定不可变，未存满的值会用空格填充到固定的长度。因此char类型字符串末尾无法存储空格，当然也不需要额外字节记录字符串长度。
varchar：varchar会使用1或2个额外字节记录字符串的长度。当列最大长度是255及以下时，varchar会使用一个字节记录可变长长度，最大长度255以上会使用两个字节记录可变长长度。因为varchar有记录长度，所以字符串末尾可以存储空格。

存储容量：

char：最多255个字符
varchar：理论上最多65535字节，最多65532个字符（当用utf-8编码存纯英文、且该表只有这一个字段时，字符串中的字符只占1个字节，能达到65532个字符）。但实际从性能考虑，超过5000长度时就不允许再用varchar，而是使用text类型。

思考：varchar(20) 是指字符串最大字节数是20，还是最大字符数是20？

答案：取决于MySQL版本；

4.0版本及以下，MySQL中varchar长度是按字节展示，如varchar(20)，指的是20字节；
5.0版本及以上，MySQL中varchar长度是按字符展示。如varchar(20)，指的是20字符。

思考：为什么varchar理论上最多字符数是65532？

答案：因为MySQL行默认最大65535字节，varchar还需要1或2个字节维护可变长度，1个字节标识该列是否为NULL。

回顾：各编码的占用长度

GBK编码：一个英文字符占一个字节，中文2字节，单字符最大可占用2个字节。
UTF-8编码：一个英文字符占一个字节，中文3字节，单字符最大可占用3个字节。
utf8mb4编码：一个英文字符占一个字节，中文3字节，单字符最大占4个字节（如emoji表情4字节）。

性能和空间：

char：性能更好，每次更新时不用维护长度；但存在空间浪费的可能；
varchar：性能相对差一点，因为每次更新时要维护长度。如果更新后字符串变长后，原来的数据页正好存满，则需要耗费时间处理新字符串的存储；处理方式取决于存储引擎，例如MylSAM将行拆成多个片段存储，innoDB会分裂页。

适用场景：

char：存储长度几乎固定的字符串适用char类型。例如电话号、身份证字段类型char(11)即可，效率要比varchar(11)更高。因为实际存储时，varchar会根据实际输入的内容占用的长度进行存储，因此占用的存储空间是实际内容长度+可变长字段长度（当varchar使用长度≤255时使用一个字节记录，长度超出255时使用二个字节记录）。
varchar：长度几乎不固定、不超过2000字符的字符串。

1.3.5.3 varchar和text类型的区别、适用场景

存储方式：

VARCHAR：可变长度的字符数据类型，它需要指定最大长度。实际存储时，会根据实际输入的内容占用的长度进行存储，因此占用的存储空间是实际内容长度加上一些额外的长度信息。
TEXT：TEXT也用于存储可变长度的字符数据，但它可以存储非常大的文本内容，通常可以存储几GB的数据。

索引和查询：

VARCHAR：由于VARCHAR有固定的最大长度，可以建立更有效率的索引，同时在查询时会更快一些。
TEXT：对于较大的文本数据，使用TEXT类型可能会导致一些查询性能上的损失，因为文本数据的处理通常会比较耗费资源。

使用场景：

VARCHAR：适用于长度可预期且不会太长的文本内容，比如姓名、地址等信息。
TEXT：适用于长度不确定或者非常长的文本内容，比如文章内容、评论等。

优缺点：

VARCHAR：占用的存储空间相对较小，适合存储较短的字符串，而且支持索引，查询速度较快。但是最大长度的限制可能会带来一些不便。
TEXT：可以存储非常大的文本内容，并且没有固定长度的限制，适合存储较长的文本数据。但是在查询和索引上可能会稍慢，而且在某些情况下，可能会消耗更多的存储空间。