GreenPlum 大数据平台--介绍

一,GreenPlum

  01,介绍:

  Greenplum是一种基于PostgreSQL的分布式数据库,其采用shared-nothing架构,主机、操作系统、内存、存储都是自我控制的,不存在共享。

  官方文档:>>>--大概内容如下

  • Greenplum Database是一个大规模并行处理(MPP)数据库服务器,其架构专门用于管理大规模分析数据仓库和商业智能工作负载。
  • MPP(也称为无共享架构)是指具有两个或更多处理器的系统,它们协作执行操作,每个处理器具有其自己的存储器,操作系统和磁盘。Greenplum使用这种高性能系统架构来分配多TB数据仓库的负载,并且可以并行使用所有系统资源来处理查询。
  • Greenplum数据库基于PostgreSQL开源技术。它本质上是几个PostgreSQL面向磁盘的数据库实例,它们共同作为一个有凝聚力的数据库管理系统(DBMS)。它基于PostgreSQL 8.3.23,在大多数情况下与PostgreSQL在SQL支持,功能,配置选项和最终用户功能方面非常相似。数据库用户与Greenplum数据库交互,就像使用常规PostgreSQL DBMS一样。
  • Greenplum采用Postgresl作为底层引擎,良好的兼容了Postgresql的功能,Postgresql中的功能模块和接口基本上99%都可以在Greenplum上使用,例如odbc、jdbc、oledb、perldbi、python psycopg2等,所以Greenplum与第三方工具、BI报表集成的时候非常容易;当然它也提供了一些Postgresql不存在的高级功能:

    • 外部表并行数据加载

    • 可更新数据压缩表

    • 行、列混合存储

    • 数据表多级分区

    • Bitmap索引

    • Hadoop外部表

    • Gptext全文检索

    • 并行查询计划优化器和Orca优化器

    • Primary/Mirror镜像保护机制

    • 资源队列管理

    • WEB/Brower监控

    Greenplum最大的特点总结就一句话:基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力,是对大任务、复杂任务的快速高效计算,但如果你指望MPP并行数据库能够像OLTP数据库一样,在极短的时间处理大量的并发小任务,这个并非MPP数据库所长。请牢记,并行和并发是两个完全不同的概念,MPP数据库是为了解决大问题而设计的并行计算技术,而不是大量的小问题的高并发请求。

    再通俗点说,Greenplum主要定位在OLAP领域,利用Greenplum MPP数据库做大数据计算或分析平台非常适合,例如:数据仓库系统、ODS系统、ACRM系统、历史数据管理系统、电信流量分析系统、移动信令分析系统、SANDBOX自助分析沙箱、数据集市等等。

    而MPP数据库都不擅长做OLTP交易系统,所谓交易系统,就是高频的交易型小规模数据插入、修改、删除,每次事务处理的数据量不大,但每秒钟都会发生几十次甚至几百次以上交易型事务 ,这类系统的衡量指标是TPS,适用的系统是OLTP数据库或类似Gemfire的内存数据库。

    Greenplum主要由Master节点、Segment节点、interconnect三大部分组成。Greenplum master是Greenplum数据库系统的入口,接受客户端连接及提交的SQL语句,将工作负载分发给其它数据库实例(segment实例),由它们存储和处理数据。Greenplum interconnect负责不同PostgreSQL实例之间的通信。Greenplum segment是独立的PostgreSQL数据库,每个segment存储一部分数据。大部分查询处理都由segment完成。

二, 三大节点

  01,master 节点

    ?:

    master节点是外边用户访问greenplum的入口。用户并不与segment节点发生任何关系,外部用户的网络只需要与master服务器联通即可。

    ?:

    master数据库也是一个被改造过的PostgreSQL数据库,它包含了整个分布式数据库中的所有元数据,如表结构定义、索引、数据分布信息等等。但其并不存储实际的数据,实际的数据是存储在segment数据库的。

       ?:

    master节点接受用户发过来的sql命令,然后解析生成分布式的执行计划,再把执行计划下发到对应的segment节点进行执行。segment节点执行完成后的结果会发送到master上,master接收到segment的结果进行汇总并返回执行结果给用户。所以在这种master-slave结构中,master不会成为系统的瓶颈。

  02,segment节点

    ?.

      Greenplum的每个segment节点可以运行多个segment instance,每个instance可以绑定到一个网卡,这样可以发挥CPU和网络性能。

    ?.

      系统的数据都分布式的存储在segment上。

    ?.

      每个segment同时执行master分发的任务,在执行查询任务或者数据加载的时候可能会涉及数据的移动。在进行数据移动的时候master不参与进来,只是在segment之间进行。

    ?.

      segment可以动态扩展,既可以在原有主机上进行增加segment instance的操作,又可以新增主机来增加segment。当扩展segment后,系统里面的数据会进行重分布操作,这个动作消耗时间会比较多。
    

  03,interconnect:

    Greenplum interconnect负责不同PostgreSQL实例之间的通信。

三,术语

  Shared Everthting:

    一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力差,典型的代表SQLServer。 shared-everything架构优点很明显,但是网络,硬盘很容易就会成为系统瓶颈。

  Shared Disk:

    各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。典型的代表Oracle Rac, 它是数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好。其类似于SMP(对称多处理)模式,但是当存储器接口达到饱和的时候,增加节点并不能获得更高的性能 。

  Shared Nothing:

    各个处理单元都有自己私有的CPU/内存/硬盘等,不存在共享资源,各处理单元之间通过协议通信,并行处理和扩展能力更好。各节点相互独立,各自处理自己的数据,处理后的结果可能向上层汇总或在节点间流转。Share-Nothing架构在扩展性和成本上都具有明显优势。

  MPP:

    大规模并行处理系统是由许多松耦合处理单元组成的,借助MPP这种高性能的系统架构,Greenplum可以将TB级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询。

  MVCC: 

    与事务型数据库系统通过锁机制来控制并发访问的机制不同, GPDB使用多版本控制(Multiversion Concurrency Control/MVCC)保证数据一致性。 这意味着在查询数据库时,每个事务看到的只是数据的快照,其确保当前的事务不会看到其他事务在相同记录上的修改。据此为数据库的每个事务提供事务隔离。 MVCC以避免给数据库事务显式锁定的方式,最大化减少锁争用以确保多用户环境下的性能。在并发控制方面,使用MVCC而不是使用锁机制的最大优势是, MVCC对查询(读)的锁与写的锁不存在冲突,并且读与写之间从不互相阻塞。    

四,高可用特性

  ?:

    greenplum的高可用性是通过master和segment的镜像来实现的,镜像是基于服务器级别的,所以能提供比较好的安全保证。

  ?

    master节点不能和segment节点安装在同一个主机上,standby节点可以和segment节点复用。

  ?

    master宕机的话,standby master不会自动切换到master,需要手动切换到主设备。segment如果一个环节坏掉,系统可以自动将mirror切换到primary。

  ?

    当segment中某台设备出现故障后,mirror会切换成primary。检查出故障的主机恢复后可以使用gprecoverseg命令恢复成之前的主备关系

  ?

    segment包括以下两种mirror模式:

      ☕: grouped mirror模式

        在这种模式下,主机的mirror节点全部放在下一个主机上,当一台机器挂掉,那么拥有该机器mirror的主机负载加重一倍

      ?:spread mirror模式

        该模式下,mirror节点分散在后面主机上,但要求部署的物理机数量要至少多于运行在每个节点上的instance一个。

五,Greenplum特点

  ☮ 标准SQL接口,比MapReduce接入更方便 ;
  ☪ 完整的分布式事务能力,确保强数据一致性 ;
  ? 近乎线性的在线扩展能力 ;
  ☸ 高并发数据加载技术 ;
  ✡ 高灵活的行、列以及混合存储及压缩技术 ;
  ⚛ 高可用技术方案 ;
  ☯ 支持多方式的授权管理及审计,表级别粒度;
  ☦ 丰富的生态系统,便捷对接hadoop等。

链接文章:>>

转载于:https://www.cnblogs.com/kingle-study/p/10521152.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: greenplum-db-6.24.0-ubuntu18.04-amd64.deb是一个针对Ubuntu 18.04操作系统的Greenplum数据库软件包文件。Greenplum是一个强大的、兼容PostgreSQL的分布式数据库管理系统。 Greenplum数据库是为大规模数据处理和分析而设计的,它使用了多个节点(或服务器)以及并行计算的技术。这使得它能够处理大量的数据和复杂的查询,并提供高性能和可靠性。 这个软件包是用于安装Greenplum数据库的工具。安装过程将会包括将软件文件拷贝到适当的目录、配置数据库的参数、创建数据库的用户和角色等步骤。 通过安装Greenplum数据库,用户可以轻松地构建和管理一个分布式的数据仓库。它提供了许多功能,包括数据的导入和导出、数据的查询和分析、数据的备份和恢复等。此外,Greenplum支持并行化查询和负载均衡,使得用户可以实现高性能的数据处理。 在安装完成之后,用户可以使用标准的PostgreSQL接口,如pgAdmin或psql等,来连接和管理Greenplum数据库。此外,还可以使用Greenplum提供的特定工具和扩展,以进一步优化和扩展数据库的功能。 总之,greenplum-db-6.24.0-ubuntu18.04-amd64.deb是一个用于安装Greenplum数据库的软件包,它提供了一个强大、高性能和可扩展的分布式数据库解决方案,可以满足大规模数据处理和分析的需求。 ### 回答2: greenplum-db-6.24.0-ubuntu18.04-amd64.deb是一个基于Ubuntu 18.04操作系统和AMD64架构的Greenplum数据库包。 Greenplum是一种开源的关系型分布式数据库,它专为处理大规模数据分析和处理而设计。它采用了Massively Parallel Processing(MPP)架构,可以将数据分布在多个节点上进行并行处理,以提高查询和分析的速度。它支持SQL语言,并具有成熟的事务处理和并发控制功能。 这个软件包是一个.deb格式的安装包,可安装在Ubuntu 18.04操作系统上的AMD64架构下。.deb是Debian软件包管理系统的标准包格式,它包含了安装一个软件包所需的所有文件和依赖项。 要安装这个软件包,可以通过运行以下命令: ``` sudo dpkg -i greenplum-db-6.24.0-ubuntu18.04-amd64.deb ``` 安装完成后,可以使用相应的命令和配置文件来启动和管理Greenplum数据库。 总而言之,greenplum-db-6.24.0-ubuntu18.04-amd64.deb是一个可用于在Ubuntu 18.04操作系统上安装Greenplum数据库的软件包,它提供了一个高性能的、分布式的关系型数据库解决方案。 ### 回答3: greenplum-db-6.24.0-ubuntu18.04-amd64.deb 是一个用于 Ubuntu 18.04 操作系统、针对 AMD 64 位架构的 Greenplum 数据库软件包。Greenplum 是一个高度可扩展的大数据平台,它基于 PostgreSQL 架构并加以优化,为企业提供了一种高性能、高可用性和高可扩展性的数据库解决方案。该软件包可以被安装在 Ubuntu 18.04 操作系统上,并且支持 64 位的 AMD 处理器。 通过安装该软件包,用户可以获得完整的 Greenplum 数据库系统,包括 Greenplum 数据库服务器、管理工具和其他必需的组件。用户可以使用它来构建和管理大规模的数据分析和处理平台,进行数据存储、查询和分析等操作。Greenplum 数据库采用并行处理和分布式架构,可以处理大量的数据并实现并行计算,因此非常适用于大规模数据处理场景。 安装这个软件包通常需要用户具备一定的 Linux 系统管理经验,用户需要通过终端和命令行来执行相关的安装和配置操作。在安装之前,用户应该先了解自己的操作系统版本,确认是运行在 Ubuntu 18.04 上,并且是否具备了 AMD 64 位架构的硬件支持。 安装软件包之后,用户可以按照官方的安装指南和文档进一步配置 Greenplum 数据库系统,包括创建数据库、添加用户、设置权限等。用户可以通过各种工具和接口来访问和管理 Greenplum 数据库,例如命令行工具、Web 控制台和 JDBC/ODBC 驱动程序等。 总而言之,greenplum-db-6.24.0-ubuntu18.04-amd64.deb 是用于 Ubuntu 18.04 操作系统和 AMD 64 位架构的 Greenplum 数据库软件包,它提供了一种高性能、高可用性和可扩展性的大数据解决方案,用户可以通过安装和配置来构建自己的数据分析和处理平台
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值