==星球水友提问==
沈老师,你好,想请教一个身份证信息检索的问题。
公司有一个每秒5万并发查询的业务,(假设)根据身份证MD5查询身份证信息,目前有1000亿条数据,纯文本存储,前几天看你写LevelDB,请问这个业务能利用LevelDB内存数据库进行存储么?有没有其他优化方案?
画外音:LevelDB《内存KV缓存/数据库》。
==问题描述完==
上一位星球水友问的是36亿日志后台分页查询,紧接着又来了一位1000亿文本MD5查询,这次的业务,至少需要解决:
(1)查询问题;
(2)高性能问题;
(3)存储问题;
一、查询问题
文本信息的查找与检索,效率很低,第一个要解决的问题是:将文本过滤转变为结构化查询。
由于检索条件是MD5,可以结构化为:
(MD5, data)
这样可以KV查询,或者数据库里的索引查询。
需要注意的是