对于帖子的发布时间TimeStamp类型,查询索引有这样的结论:一般而言,帖子的字段有postId,userId,postTime,content
当总数据量较小时,有很大概率会走索引,此时查到的结果数可以允许比较大
但总数据量比较大之后,查找到的结果数据越小时,越大概率使用上索引。
因此可以将userId和postTime冗余到postId字段中,postId前6位取userId,每一位用0-9/A-Z 36位中的一位,这样可以表示2^36位用户。postTime取时间戳的36进制编码,postTime为发帖时间减去系统初次发布的时间,13位时间戳转化为8位字符0-9a-z可表示70年的时间范围。还有2位seq,表示1秒内可以发布的帖子数量。
这样设计后,帖子的TimeCompress字段可以随时间递增实现升序的排序,充分利用DB的扫描。
优化后,查询某位用户的范围内的帖子代码就变成了
select * from post where postId bewteen postId1 and postId2
又或者查询某人的帖子,因为6位前缀是一样的,这样避免了回表的尴尬
select * from post where postId like 'xxx%'