数据库性能受到磁盘读写速度限制,每次磁盘读写会先寻道,再旋转
所以读写中的寻道和旋转的机械过程是IO的核心瓶颈
通常寻道速度会在10-20ms,西数640G某硬盘的平均寻道时间12.5ms
旋转延迟如果正好是一圈,则根据每分钟转速决定,7200转的硬盘,一圈为8.3ms
通常数据库使用B-tree的数据存储结构,检索到某个数据的次数为log2(n),n为总数据量,
1,000,000一百万数据检索次数为20次,60亿数据检索次数为33次
因此算法方面保证了检索次数不会太大,但即使20次检索,如果需要做20次磁盘的随机读取,估计也会慢到要死,随机读取的情况下,寻道时间+旋转延迟,不太理想的情况下为20ms,一秒钟仅能做50次io操作
如果是随机读取检索,仅100万个数据中检索出一个数据,需要20次io,那么需要花费的时间为400ms,也就是0.4秒,如果一次检索需要0.4秒,估计100个用户同时登陆,最后一个用户就有40s的延迟,不可想像。
还好首先磁盘还有一定的缓存来缓解突发性集中读写,其次磁盘是按块划分的,上面所说的花费时间是读取一块所花费的时间,如果一块可以记录150个数据,那么最后的7次检索,就只用一次io就可以了。因为检索到13次时,剩下的数据相当于1000000/(2^13) = 122个数据,2^7 = 128,相当于不用再用额外的io操作。(如果数据库的数据不是连续存储的呢?)
如果数据库是链表,那么就不是连续存储的吗?不是连续存储的话,每次检索都得用到磁盘io