并行计算机根据处理机与磁盘及内存的相互关系可以分为三种基本的体系结构,即共享内存结构(Shared-Memory,简称SM结构)、共享磁盘结构(Shared-Disk,简称SD结构)和无共享资源结构(Shared-Nothing,简称SN结构)。并行数据库系统研究以三种并行计算结构维基础。
1. SM并行结构
SM并行结构有多个处理机、一个共享内存(主存储器)和多个磁盘存储器构成。多处理器和共享内存由高速通信网络连接,每个处理机可直接存取一个或多个磁盘,所有内存与磁盘为所有处理机共享。例如,IBM/370多处理机系统、VAX多处理机系统时具有SM结构的并行计算机结构。
SM方案的优势在于实现简单和负载均衡。在该结构中,共同执行一条SQL语句的多个数据库构件通过共享内存来交换消息与数据。数据库中数据划分在多个局部磁盘上,并可以为所有处理机访问。数据库软件的编制与单处理机情形区别不大。查询间并行性的实现不需要额外的开销,查询内并行性的时先也比较容易。
这种系统可以基于实际负荷来动态地给各处理机分配任务,可以很好地实现负荷均衡。但是由于应简称源之间的互连很复杂,因而成本较高;访问共享内存和磁盘也会成为瓶颈;为了避免访问冲突增加而导致系统性能下降,接点数目受到限制;可扩充性较差。此外,内存的任何错误都将影响到多处理机,系统的可用性不是很好。
2. SD并行结构
SD并行结构由多个具有独立内存(主存储器)的处理机和多个磁盘构成。每个处理机都可以读写任何磁盘。多个处理机和磁盘存储器由高速通信网络连接。
SD方案具有成本低、可扩充性好、可用性强、容易从单处理机系统迁移以及负载均衡等优点。该结构的不足在于实现起来复杂以及存在潜在的性能问题。
由于SD方案中每一处理机可以访问共享磁盘上的数据库页(单它们无共享内存),因此数据被拷贝到各自的高速缓冲区中。为避免对同一磁盘页的访问冲突,该结构需要一个分布式缓存管理器来对歌处理机(结电)并发访问进行全局控制与管理,并保持数据的一致性。维护数据一致性会带来额外的通信开销。此外,对共享磁盘的访问是潜在的瓶颈。
3. SN并行结构
SN并行结构由多个处理结点构成。每个处理结点具有自己独立的处理机、内存(主存储器)和磁盘存储器。多个处理机结点由高速通信网络连接。
SN方案中,每一结点可视为分布式数据库系统中的局部场地,因此分布式数据库设计中的多数设计思路(如数据库分片、分布事务管理和分布查询处理等)都可以借鉴。
SN结构成本较低,它最大限度地减少了共享资源,具有极佳的可伸缩性。