GP社区
文章平均质量分 76
MyySophia
工作只是你的权利,而只有你的行为才能为你赢得尊重
展开
-
greenplum,teradata,presto,clickhouse四种分布式数据库的对比
1. 四种数据库的比较 数据库 描述Greenplum 开源大规模并行数据分析引擎。借助MPP架构,在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。应用广泛。Teradata 大型数据仓库系统,产品成熟,价格昂贵。用于证券系统。Presto 分布式SQL查询引擎, 专门进行高速、实时的数据分析。本身不存储数据,但是可以接入多种数据源。擅长对海量数据进行复杂的分析。用于大数据...转载 2021-06-05 23:43:58 · 2633 阅读 · 0 评论 -
Greenplum 6.X改进的特性
gpbakcup和gprestore不再集成在Greenplum 6内部,而是成为一个独立发布更新的工具Greenplum 6里使用了一种叫Jump Hash的算法来计算数据的哈希分布。这个算法可以做到在增加新节点重新分布数据时,只需移动哈希到新节点的数据。哈希性能上与之前发布的版本相差不多,但是能做到快速扩容。因为新哈希算法更消耗CPU,所以COPY工具在CPU资源紧张的机器上运行性能会下降旧的哈希方法已经不是默认的哈希方法,只有在从Greenplum 6.0之前的老版本升级的时候才会使用。.转载 2021-05-17 20:17:13 · 324 阅读 · 0 评论 -
数据库运维工程师的职责
数据库作为IT核心业务模块,其重要性不言而喻,能否持续、稳定高效地运行越来越受企业和用户的关注。Greenplum不仅具备前面几部分介绍的丰富功能和强大性能,而且在可用性、稳定性以及管理和优化的易用性上也日趋成熟。DBA的主要职责包括建立数据库监控体系,定期对数据库健康状况进行评估和优化,管控潜在的风险,完成数据库的安装、部署、升级、备份/恢复、迁移等工作。数据库管理员作为Greenplum运维的主要参与者和执行者,除了要具备一般关系型数据库原理、设计、查询、操作系统、存储、网络等基本知识外,掌握一定的原创 2021-02-19 16:15:25 · 1399 阅读 · 0 评论 -
「揭秘GP」Greenplum 的高可用
目录什么是高可用如何做到高可用Greenplum高可用的实现什么是高可用高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务,我们说系统的可用性是100%,很多公司的高可用目标是4个9,也就是99.99%,这就意味着,系统的年停机时间为0.876个小时。如何做到高可用高可用系统最大的劲敌就是单点故障。任何一个单点故障都是不可避免的,如果系统是单点架构的,当单点出现.转载 2021-01-23 21:55:55 · 828 阅读 · 0 评论 -
gpfdist性能优化介绍
gpfdist外部表,是Greenplum数据库最重要的数据批量加载技术,有着极高的性能。先讲个故事,我们经历过很多的POC测试,虽然gpfdist外部表的加载性能一直领先友商,但是,在文件服务器带宽有限的情况下,我们往往很难取得碾压性的优势,尤其是文件服务器只有一根光纤的时候,测试的结果,往往是大家的性能几乎相同,所以,我在很长一段时间,都在考虑,如何可以突破性能的上限,大概一年前,我就跟我们的技术大牛同事聊这些思考,得到了一个大牛的共鸣,后来我就做了他的产品经理,他开始着手写一个可以在一定程度上代替转载 2020-12-09 15:54:51 · 1408 阅读 · 0 评论 -
PostgreSQL 逻辑结构 和 权限体系 介绍
目录背景逻辑结构权限体系schema使用 , 特别注意用户public如何查看和解读一个对象的当前权限状态附录libpq与jdbc连接配置参考libpqjdbc参考更高基本的安全控制背景本文旨在帮助用户理解PostgreSQL的逻辑结构和权限体系,帮助用户快速的理解和管理数据库的权限。逻辑结构最上层是实例,实例中允许创建多个数据库,每个数据库中可以创建多个schema,每个schema下面可以创建多个对象。对象包括表、物化视图、操.转载 2020-09-08 16:35:43 · 440 阅读 · 0 评论 -
PostgreSQL Freeze 风暴预测续 - 珍藏级SQL
目录背景观测SQL统计SQL明细SQL小结视图1 (v_freeze) :视图2 (v_freeze_stat) :视图3 (v_freeze_stat_detail) :流程附录背景PostgreSQL 目前默认的存储引擎,事务可见性需要依赖行头的事务号,因为事务号是32位的,会循环使用。在一条记录产生后,如果再次经历了20亿个事务,必须对其进行freeze,否则数据库会认为这条记录是未来事务产生的(可见性判断)。因此FREEZE操作是数据库在32.转载 2020-08-17 13:50:16 · 646 阅读 · 0 评论 -
PostgreSQL on Linux 最佳部署手册 - 珍藏级
目录背景OS与硬件认证检查安装常用包配置OS内核参数配置OS资源限制配置OS防火墙selinux关闭不必要的OS服务部署文件系统设置SSD盘的调度为deadline关闭透明大页、numa编译器icc, clang编译PostgreSQL初始化数据库集群配置postgresql.conf配置pg_hba.conf启动数据库背景数据库的安装一直以来都挺复杂的,特别是Oracle,现在身边都还有安装Oracle数据库赚外快的事情.转载 2020-08-12 15:17:08 · 638 阅读 · 0 评论 -
「揭秘GP」Greenplum新一代数据迁移工具gpcopy,更快更稳更易用
gpcopy 是新一代的 Greenplum 数据迁移工具,可以帮助客户在不同集群间,不同版本间,快速稳定地迁移数据。同上一代迁移工具 gptransfer 相比,gpcopy 具有巨大的优势:更快,更稳定,更易用,功能更丰富。另外,gpcopy 只包含在商业版本中。gpcopy 可以干什么gpcopy 可以迁移整个集群,也可以具体传输某些数据库、某些命名空间和某些表;可以从文件读取传输或者略过的表,支持正则表达式;可以略过、追加或者替换目标集群的数据;可以并行传输;可以只迁移结构信息;可以静默自动转载 2020-06-24 22:30:41 · 646 阅读 · 0 评论 -
「揭秘GP」Greenplum 的人工智能应用场景:MADlib、GPText、GPU
目录可扩展的机器学习算法库:MADlib1+1>2:MADlib + Greenplum 的优势人工智能算法概览采用GPU加速的数据库实现方式结构化分析与非结构化分析的完美结合:GPTextPivotal Greenplum —— 全世界首个开源、多云数据平台,专为高级分析而打造。作为一个开放的数据计算平台,它集成了对数据进行挖掘和分析的高级功能,通过这些功能,用户可以直接在Greenplum数据库里使用高级分析算法,对数据进行分析和处理。本篇文章将从最近较热的人工智能应用场景说转载 2020-06-24 22:11:01 · 686 阅读 · 0 评论 -
「揭秘GP」Greenplum 6 软件包目录畅游
今天咱们来一起看看 Greenplum 安装目录分别都有什么内容,具体作用是什么。请大家注意,本文章中介绍的仅仅是软件安装目录的内容,并没有涉及到数据存储目录的内容,二者不能混为一谈。软件包安装位置Greenplum 6 在安装完成后,与大部分其他应用软件的位置一致,默认的安装位置为 /usr/local 下。[gpadmin@gp1 local]$ ls -al总用量 4drwxr-xr-x. 14 root root 187 12月 17 11:24 .drwxr-xr-x. 13转载 2020-06-24 22:06:06 · 724 阅读 · 0 评论 -
【揭秘GP】全新 Greenplum 集群传输工具—GPCOPY 2.1.0 正式发布
导读:GPCOPY 是新一代的支持 Greenplum 集群之间快速高效传输数据的工具。作为 Greenplum 集群数据传输的官方首选配套工具,GPCOPY 除了具有高速稳定易用的特点外,还支持不同版本 Greenplum 集群之间的传输(当然支持同版本之间的传输)。GPCOPY 支持从 GP4.3.x 到 GP 5.x、GP5.x 到 GP6.x、甚至 GP4.3.x 到 GP6.x 的数据传输。它也同时支持同等规模集群和不等规模集群之间的传输。另外 GPCOPY 还支持数据的校验,支持事务,增加了数.转载 2020-06-24 22:04:09 · 721 阅读 · 0 评论