key-value格式的存储的应用场景很多,通用的描述是『输入一个唯一标识的input,返回(查找)一个对应的output』。Python中字典(dictionary)就是一个内置的解决方案 - Python的字典本质上是一个哈希表,功能可对应Java的HashMap,但据说被尽可能地优化过(没有研究过细节,不随意展开),因此输入key的查询速度可以说是Python本身能达到的极致了。
但是,并不是每个场景都是以查询速度为第一条件的。Python字典在建立的过程中同时也要建立一个C long型的哈希表(以及其他?),因此会额外占据很多空间。若是需要在内存中保持一个很大的key-value数据结构,并可以牺牲查询速度的话,也可以用其他方案替代。
这篇整理一下Python中各种常用的key-value方案以及适用场景。
Python自带字典(dictionary)
- 优点:方便简洁,查询速度No.1
- 缺点:占用内存空间。
- 适用场景:内存足够。
Pandas的Series / DataFrame
这里我们主要关心的是,Series / DataFrame的索引中,用户自定义索引和内部建立的数值型索引的映射是怎么实现的?(重点 - 是字典吗?答案:是。)
拿Series来举例: