PostgreSQL 简介
作者:何伟平
出处:http://www.pgsqldb.org:8079/mwiki/index.php/PostgreSQL
PS:部分应用
1. 被 Facebook 以10亿美元收购的 Instagram 公司使用 PostgreSQL 存储用户信息、图片说明,tag以及其它数据。http://www.csdn.net/article/2012-04-12/2804490
2. OpenStreetMap
3. PostgreSQL 正在逐渐成为SQL数据库中的NoSQL选择。版本9.2支持存储JSON格式的数据,并在其之上提供完备的查询功能。另外,PostgreSQL还提供了允许用户以键值对(key/value pair)的形式存储和查询数据的扩展。该扩展让你可以直接利用稳定的数据库底层存储和事务的能力, 而无需绑定在关系数据模型上.对于那些希望同时开发SQL和NoSQL应用,却又倾向于使用一套他们熟知的可靠基础设施的开发者而言,提供这一特性就再理想不过了。
摘要
PostgreSQL 是一种非常先进的对象-关系型数据库管理系统(ORDBMS),目前功能最强大,特性最丰富和最先进的自由软件数据库系统。有些特性甚至连商业数据库都不具备。这个起源于伯克利(BSD)的数据库研究计划目前已经衍生成一项国际开发项目,并且有非常广泛的用户。
前言
今天,Richard Stallman (RMS)自 1985 年 10 月发起的自由软件运动已经有近 30 年的历史了,如果说最初 RMS 的愿望是创造一个可自由获取的操作系统的话,那么到今天,自由软件的发展已经远远超过当年 RMS 的目标,并且和整个计算机软件业的发展过程一样,自由软件用户对自由软件的基础需求也经历了由基础工具(编译器、编辑器)到基础平台(操作系统)再到基础应用软件(图形界面、数据库、办公软件、图形处理软件)的过程;甚至超越了传统软件的贡献,在向更高层次的联网系统(WebOS),和联网应用(WebDB,WebApplication)发展。
- 八卦:笔者认为正是自由软件带来的“成本革命”,才令 WebOS、WebDB、Web 应用成为可能,这些庞大公共软件设施在昂贵的商业软件时代是根本不可能想像的。
PostgreSQL 是在这个发展过程中,最重要的基础链条之一:数据库系统的一个典型代表。
“PostgreSQL 是一种特性非常齐全的自由软件的对象-关系性数据库管理系统(ORDBMS),它的很多特性正是当今许多商业数据库的前身” --摘自 PostgreSQL 手册。
历史
Ingres和Postgres
谈到 PostgreSQL,我们得谈谈 Berkeley,也就是中文“加州大学伯克利分校”这所大学。伯克利(BSD)对计算机科学的贡献巨大,尤其是在操作系统领域,各种BSD系统以及Bill Joy的TCP实现在整个计算机科学的发展史上熠熠生辉,光芒闪耀。它们的光辉是如此耀眼,以至于让人几乎无法看到伯克利在其它计算机科学的分支上的成就,而 PostgreSQL 正是其中之一。
PostgreSQL 的前身是 BSD 的始于 1977 年的 Ingres 项目,这个项目是 Michael Stonebraker 教授领导的,在 1982 年,Michael Stonebraker 离开伯克利商业化了 Ingres,成为 Relational Technologies 公司的一个产品,后来 Relational Tecchnologies 被 Computer Associates(CA)收购。Ingres 是一个非关系型的数据库(数据关系需要由用户有意识地维护),在 1985 年,Michael Stonebraker 回到伯克利开始一个后-Ingres(post-Ingres)的项目,目的是解决 Ingres 中,同时也是 1980 年代的数据库系统中的主要问题:数据关系维护的问题。这就是 Postgres 的开端。
从1986年开始,Michael Stonebraker 教授发表了一系列论文,探讨了新的数据库的结构设计和扩展设计,然后在 1988 年有了一个原型设计,1989年6月发布了版本 1,1990年6月发布了版本 2,1991年发布了版本 3。在版本 3 里改进了规则系统,增加了多存储系统支持以及改进了查询引擎。在 1993年,用户开始暴涨,并且特性需求急剧增加;在做了一些代码清理、发布了版本 4 之后,Postgres 项目正式终止。而随后 Michael Stonebraker 教授再次去创业,成立 Illustra 公司提供 Postgres 的商业支持,后来 Illustra 在 1997 年被 Informix 收购,而 Michael 教授成为 Informix 的 CTO;再后来 Informix 在 2001 年被 IBM 收购。
- 八卦:看Michael Stonebreaker教授的经历,感觉在 US 这个教授的确是“进可创业,退可教书”的好职业。不过Michael教授对数据库、对人类的贡献有目共睹,无需指摘太多。
- 后记:Michael Stonebreaker教授目前回到了教育岗位,在MIT从事数据库研究,后面对流数据库(Stream database)和列数据(Column database)都有颇多论文并且也相应地创建了一些商业支持公司,是一个很有求知欲和创业欲的教授。
Postgres95
Postgres 并没有因为 Postgres 项目的终止而停止发展,而是仍然在各种场合被人们所使用,在1994年,两名伯克利的研究生在做研究生课题的时候,向 Postgres 里增加了现代的 SQL 语言的支持。这里需要解释一下:E.F Code 的关系模型提出之后,对这个模型的实现有非常多的变种,相互之间并不兼容,比如Postgres用的是 QUEL/Postquel 语言,而 SQL 自身作为语言,一直到1992年才形成真正的国际标准(还是草案),当时称为 SQL2,但是人们常称为 SQL92。两位研究生是来自中国香港的 Andrew Yu 和 Jolly Chen 用 bison 和 flex 工具的组合,把Postgres 的Postquel查询语言替换成了 SQL92,然后将Postgres改名为 Postgres95。
- 八卦:笔者自己还和 Andrew Yu 有一面之缘,曾问起 Postgres95 起名原因,Andrew 同志回复的大致的意思的确是因为受了 MS 当年著名的 win95 的命名的影响。
PostgreSQL
Andrew Yu 和 Jolly Chen 最大的贡献在于,完成了 Postgres95 之后,将其发布到了互联网上,随后的 1996 年,加拿大的 Hub.Org Networking Services的 Marc Fournier(一名 FreeBSD 黑客)提供了第一个非大学的开发服务器平台,然后 Bruce Momjian(美国)和 Vadim B. Mikheev(俄国)开始修改以及稳定伯克利发布的代码,并于1996年8月发布了第一个开源版本。
随后,这些黑客把项目名称改变为 PostgreSQL,以对应 SQL 的支持,并且把 PostgreSQL 的版本号重新放到了原先 Postgres 项目的顺序中去,从 6.0 开 始(Postgres 本身到4.2,Postgres95 算5.0)。自 1996 年 8 月到2013 年,PostgreSQL 项目已经有 17 年的历史,而 Postgres 的年龄也超过24岁,已经进入成熟的青年期。
目前,PostgreSQL 的稳定版本到了 9.2.1,在RDBMS的各种特性方面,已经接近于“无可指摘”的境界了。而目前 PostgreSQL 的开发是围绕在更易用的 SQL 语言扩展、SQL 标准的兼容(比如SQL2003、XML/Xquery的支持)、扩展工具、外围工具等方面。
- 八卦:在软件的使用过程中,感觉软件如人一样:随着年龄的增长而成熟,一个软件的青春期是10余年的时候,会迎来软件的一次繁荣,而成熟期是第二个10年左右,迎来软件的第二次繁荣;然后进入壮年期和盛年期,就是第三和第四个10年左右;一般软件在经历四十余年之后肯定会进化成更高层次的某种动物。在这个过程中,每个十年都会有一些关键的转折点,如果没能顺利通过转折点,估计就会消失。PostgreSQL 的竞争对手之一 MySQL 正处于青春期变化的过程,值得观察。
PostgreSQL读法
PostgreSQL 的读法:Post-gres-Q-L,因为大多自由软件开发人员把 SQL 念做:S-Q-L,而不是 IBM 常说的(squel)。类似的 MySQL 的官方读音也是:My-S-Q-L,而不是 My-see-quel。
特点
PostgreSQL 的特点可以说是如数家珍,称其为最先进的开源软件数据库当之无愧。一些当前主流数据库的特性对比可以在本站的主要关系型数据库系统对比一文中找到,就 PostgreSQL 而言,其主要特点有下面的不完全列表:
函数/存储过程
SQL 语言因为是“集合思维(Thinking in Set)”,基于集合理论进行数据的处理,所以自身没有循环和分支的定义,因此在某些需要精确控制的过程类场合显得有些过于庞大,所以 PostgreSQL 还提供了非常丰富的过程类语言的支持:
- 内置的 plpgsql,一种很类似 Oracle 的 Plsql的语言。
- 脚本语言支持的有:PL/Lua,PL/LOLCODE,PL/Perl,plPHP,PL/Python,PL/Ruby,PL/sh,PL/Tcl 和 PL/Scheme。
- 编译语言有 C、C++ 和 JAVA。
- 统计语言 PL/R。
索引
PostgreSQL 支持用户定义的索引访问方法,并且内置了 B-tree,哈希和 GiST索引。PostgreSQL 里的索引有下面几个特点:
- 可以从后向前扫描,这样在 ORDER BY field DESC 的时候就不用单独创建索引文件了。
- 可以创建表达式索引,这样就可以对字段的某个表达式或者函数的计算值进行索引,而不只是对字段值。
- 部分索引,就是只对一部分数据进行索引,在 CREATE INDEX 语句中可以有 WHERE 子句。
触发器
触发器是 SQL 查询的动作触发的事件。比如,一个 INSERT 查询可能激活一个检查输入值是否有效的触发器。大多数触发器都只是对 INSERT 或者 UPDATE 查询有效。
PostgreSQL 完全支持触发器,可以附着在表上,但是不能在视图上。不过视图可以有规则。多个触发器是按照字母顺序触发的。并且我们还可以用其他过程语言书写触发器函数,不仅仅 PL/PgSQL。
并发管理/MVCC
PostgreSQL 的并发管理使用的是一种叫做 MVCC(多版本并发机制)的东西,这个机制实际上就是现在在众多所谓的编程语言里头极其火爆的“Lock Free”的东西。其本质是通过类似科幻世界的时空穿梭的原理,给予每个用户一个自己的“时空”,然后通过原子的“时空”控制,控制时间基线,并以此控制并发更改的可见区域,从而实现近乎无锁的并发,而同时还能在很大程度上保证数据库的 ACID 特性。
规则/RULE
规则允许我们对一个到来的查询生成的查询树进行改写。这个功能的一个用途是实现可更新的视图。
数据类型
PostgreSQL 支持非常广泛的数据类型,包括:
- 任意精度的数值类型
- 无限长度的文本类型
- 几何原语
- IPv4和IPv6类型
- CIDR块和MAC地址
- 数组
而且,用户还可以创建自己的类型,并且可以利用 GiST 框架把这些类型做成完全可索引的。比如来自 PostGIS 的地理信息系统(GIS)的数据类型。
用户定义对象
因为PostgreSQL使用一种基于系统表的可扩展的结构设计(感谢 Michael Stonebraker和所有黑客们!),PostgreSQL内部的几乎所有对象都可以用户定义,包括:
- 索引
- 操作符(内部操作符可以被覆盖)
- 聚集函数
- 域
- 类型转换
- 编码转换
继承
PostgreSQL 的表是可以相互继承的。一个表可以有父表,父表的结构变化也会导致子表的结构变化,而对子表的插入和数据更新等也会反映到父表中。
其它特性与扩展
PostgreSQL 还支持大量其他的特性,比如:
- 完整性约束,包括外键,字段约束和行检查
- 视图,不过还没实现可更新视图,但是可以用规则系统实现这个目标
- 全联接,内联接和外联接and outer (left and right) joins
- 子查询
- 事务
- 支持 SQL:2003 标准的大部分特性
- 通过 SSL 加密的连接
- 二进制和文本大对象存储
- 在线备份
- 域
- 表空间
- 保存点
- 即时恢复
- 两阶段提交
- TOAST(The Oversized-Attribute Storage Technique)用于透明地在独立的地方保存大的数据库属性,还会自动压缩
- 正则表达式
此外 PostgreSQL 还有大量的附加模块和扩展版本,比如:
- GPL 的用于处理 GIS 对象的 PostGIS
- 使用 PostGIS 的pgRouting 实现的最短路径算法
- 多种不同的主从/主主复制方案
- Slony-I
- pgcluster
- Mammoth replicator
- Bucardo
人物
对 PostgreSQL 做出巨大贡献的人物很多,这里只能摘其一二而为之。
首先是伯克利,作为一个学院,好象不应该进入人物的范畴,但是如果没有 BSD 的优良的学术环境,创造出这样优秀的科学技术成果是不可能的。
然后是 Michael Stonebraker 教授,正是这位学究的开明才能让这样优秀的科技成果走向了公众,并且。
接下来有我们的同胞,Andrew Yu 和 Jolly Chen,他们为 PostgreSQL 走向现代做出了巨大的贡献。
最后是现在正在辛勤耕耘的黑客们,这些黑客以他们执着的精神和高超的技术,为 PostgreSQL的日益完善做出了不可磨灭的贡 献。 黑客总共有数十人之多,我只好把核心成员挑出来介绍一下,而对于贡献了更多代码的其他重要黑客,只好暂且委屈他们一 阵子了,如果有机会,我还会进一步介绍他们。
目前主要贡献者
Tom Lane
- 一位卡耐基梅隆大学(CMU)的电子工程学 ph.D(博士),是 PostgreSQL 的非常重要开发人员,其足迹遍部PostgreSQL 的每一个角落, 可以说对 PostgreSQL 的性能和稳定性以及特性的取舍有极其重要的贡献,在开始参加 PostgreSQL 项目之前,他已经有了十余年的自由软件开发经验, 可以说是老牌的自由软件程序员;
Jan Wieck
- 一位来自德国的黑客,有十余年的数据库开发经验,原先曾经为 SAP 等大型软件厂商工作,后来加入 PostgreSQL 的开发;他也是喜欢大项目, 不过兴趣是用户端的特性,比如外键,一些过程语言比如 pl/pgsql 等,7.1 版本中的 CLOB(文本大对象)的部分也是他的作品。
Bruce Monjian
- 来自美国,是一些文档和项目协调,以及许多完整性约束和 SQL 语法的标准等,比如 OUTER JOIN,同时维护 TODO 列表和 FAQ。
Marc Fournier
- 加拿大黑客,主要的协调人,维护站点,邮件列表,以及发布版本等。
Peter Eisentraut
- 德国/瑞典黑客,主要负责文档编写、完善,认证和权限管理,制作脚本和一些管理配置接口的制定,以及客户端交互工具 psql 等, 其作用日益突出,可以说在 7.2 版本的开发过程中是不可或缺的人物。
另外还有大量来自欧洲,澳洲和亚洲(日本)等地的黑客。实际上,有越来越多的黑客的作用变得日益重要,在邮递列表中每天都 有来自不同黑客的 各种各样的补丁程序。所以,自由软件的特点就是,只要愿意,任何人都可以对它有足够的影响。也就是说, 我们命运是真正掌握在自己手里的。
历史名人
下面是些曾经给 PostgreSQL 做过巨大贡献,但是目前已经退出 PostgreSQL 的活跃开发的黑客:
Thmas Lockhart
- 一位毕业于加洲理工学院的美国黑客,主要负责文档和若干种数据类型(尤其是与时间相关的类型),SQL 语法的标准一致性,时间类型,以及完整性约束等。
Vadim Mikheev
- 一位来自俄国的黑客,其特点是专干大项目,比如 V6.3 里面的子查询,V6.5里面的多版本并行控制,以及 7.1 里面的预写式日志系统等, 可以说是 PostgreSQL 的开拓者;
后记
作为一种数据库管理系统,PostgreSQL 并不象 Linux 与某些商业操作系统相比那样,得到迅速广泛的承认,这一点是可以理解 的,Tom Lan 曾经有一段话说得实在: “首先,商业数据库系统不象某些商业操作系统那样实在太烂,相反,商业数据库系统的 质量还是非常高的,与之相比,PostgreSQL 仍然有一定差距”但同时他也相信 “我们已经达到商业级的数据库系统的质 量......”
的确,自由软件的发展具有跳跃性,因为开发者大多是利用空余时间进行开发,当开发者云集的时候,新的东西可能一下子就增加 上去;而如果在自由软件运动的低潮时, 因为缺少开发人员,所以可能会有一长段时间的沉寂,而后又会随着社会的发展而出现 新的活动。也就是一种螺旋的上升。
因而,我们在面对自由软件的时候,一定要有一点:要相信自己和依靠自己,因为自由软件的发展的确需要每一个爱好者充分发挥 自己的聪明才智, 同时,也只有自由软件给你提供了这样的机会——依靠自己的力量改变自己的命运。最后,也只有这样,自由 软件之光才能真正照耀我们的世界。
附录
参考资料
历史
http://www.daemonnews.org/199907/devhistory.html
http://www.postgresql.org/osdn/history.pdf
http://www.postgresql.org/osdn/tour.pdf
特性
http://www.postgresql.org/idocs/
http://www.pgsqldb.com/pgsqldoc-7.2c/index.html
注释:
本文中黑客一词源于英文 Hacker,是指那些计算机尖子,对计算机及全人类都有贡献的创造者, 不是一般媒体上的“黑客” 概念,那是指 Cracker,也就是破坏者。
作者: 何伟平 laser(at)pgsqldb(dot)com
注:如要转载请注明作者和出处 www.pgsqldb.org