Greenplum
DataGPT
透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观
展开
-
Greenplum或DeepGreen中检查资源队列状态
查看分配到资源队列的 ROLE要查看ROLE与资源队列之间的关联关系,使用系统日志表pg_roles和gp_toolkit.gp_resqueue_status来获得:SELECT rolname, rsqname FROM pg_roles, gp_toolkit.gp_resqueue_statusWHERE pg_roles.rolresqueue=gp_toolkit.gp_r原创 2016-06-18 13:13:59 · 3542 阅读 · 0 评论 -
Greenplum或DeepGreen数据库对象的使用和管理
1. 创建文件空间[gpadmin@cdha ~]$ gpfilespace -o gpfilespace_config #当前目录下生成gpfilespace_config文件Enter a name for this filespace> zhangyun_fs #手工输入primary location 1> /dbfast_zhangyun_tbs/pri原创 2016-06-19 10:50:51 · 10544 阅读 · 3 评论 -
Greenplum或DeepGreen的管理数据
1. 关于GPDB的并发控制与事务型数据库系统通过锁机制来控制并发访问的机制不同, GPDB(与PostgreSQL一样)使用多版本控制(Multiversion Concurrency Control/MVCC)保证数据一致性。 这意味着在查询数据库时,每个事务看到的只是数据的快照,其确保当前的事务不会看到其他事务在相同记录上的修改。据此为数据库的每个事务提供事务隔离。原创 2016-06-19 12:13:26 · 4615 阅读 · 2 评论 -
Python脚本访问Greenplum数据库安装指导
安装前准备(1)操作系统(系统上面要安装一些必备的开发工具(比如gcc等)) linux-82:/home/PyODBC # cat/etc/SuSE-release SUSE Linux EnterpriseServer 11 (x86_64)VERSION = 11PATCHLEVEL = 1 (2)安装所需的软件包greenplum-connectivit原创 2015-02-27 20:34:07 · 7049 阅读 · 4 评论 -
Greenplum或DeepGreen中使用外部表访问Hive数据(分隔符是Hive表默认列分隔符)
在Greenplum或DeepGreen中,使用外部表访问Hive表的数据,并且文件数据的列分隔符是Hive默认的方式'\001'。1. 查看数据[gpadmin@JSZ ~]$ cat ok.txt 1^ASpark2^AHadoop2. 在Hive中创建表,包括并加载数据hive> create table ok(id int,name string) ro原创 2016-06-20 16:52:03 · 5034 阅读 · 4 评论 -
Greenplum或DeepGreen数据库查看表倾斜的方法总结(2)
根据上次写的博客:http://blog.csdn.net/jiangshouzhuang/article/details/51792580下面整理了一个更新详细的查看数据倾斜的函数,如下:CREATE OR REPLACE FUNCTION my_create_func_for_extended_skew( out schema_name varchar, o原创 2016-07-07 14:27:05 · 3930 阅读 · 0 评论 -
Greenplum或DeepGreen数据库查看表倾斜的方法总结(3)
前几天写的两篇博客介绍如何根据表的数据文件来查看数据倾斜度,如下:http://blog.csdn.net/jiangshouzhuang/article/details/51792580http://blog.csdn.net/jiangshouzhuang/article/details/51850975下面总结其他的一些常用方法:1、使用隐藏字段gp_segment_idselect gp_原创 2016-07-08 07:33:50 · 4865 阅读 · 0 评论 -
使用sqluldr2实现将Oracle数据无落地快速导入Greenplum数据库
环境信息:Greenplum:Greenplum Version: 'postgres (Greenplum Database) 4.3.8.2 build 1'Oracle:Release 11.2.0.1.0 Production 1. Oracle客户端部署在使用sqluldr2工具之前,首先需要在Greenplum(以下都称为GP)的Master节点部署Oracle客户端,因为原创 2016-07-19 09:07:51 · 11259 阅读 · 2 评论 -
安装Greenplum-cc-web监控软件
安装Greenplum-cc-web监控软件 -----written by jiangshouzhuang安装前准备操作系统信息:SUSE Linux Enterprise Server 11 (x86_64)VERSION = 11PATCHLEVEL = 1 软原创 2015-02-07 11:40:50 · 11237 阅读 · 19 评论 -
Python脚本通过unixODBC驱动访问Greenplum(4.3.8.2)数据库安装指导
本篇文档主要用来描述:1. 搭建unixODBC驱动,用来通过odbc方式访问数据库2. 搭建Pyodbc驱动,用来使用Python脚本通过系统的odbc方式来对数据库进行操作3. 这种架构的好处:l 通过odbc访问数据库的性能要好于jdbc的方式l 通过Python脚本开发,后续可以通过调度平台来执行Python执行数据分析,比如设置定时任务,周期性地执行Python脚本原创 2016-07-08 17:48:25 · 4895 阅读 · 0 评论 -
Greenplum对新增节点扩展Segments实战
一、环境信息:Greenplum版本号:Greenplum Version: 'postgres (GreenplumDatabase) 4.3.8.2 build 1' GP扩展Segment之前的环境信息:9个节点,其中:1个Master节点1个Standby Master节点7个Segment节点,每个Segment上面有两个Primary实例,两个Mirror实例 二、下面开始介绍在现有G原创 2016-07-21 11:08:22 · 8634 阅读 · 0 评论 -
Greenplum的MVCC多版本控制的简单介绍(主要涉及cmin,cmax,xmin,xmax说明)
熟悉Greenplum数据库的朋友应该都知道,GP底层是使用PostgreSQL数据库来实行MPP架构的,而对于事务控制这一块,也是使用PostgreSQL的多版本控制MVCC,实现了读写分离,显然就会提高数据库每秒查询的性能。 在Read Commit事务隔离级别时,查询请求只读取查询请求之前已经提交的事务的数据更改,对当前版本的数据并不影响;而DML语句,会操作当前版本。因此做到了读写分离的目原创 2016-07-04 14:23:49 · 9246 阅读 · 0 评论 -
Greenplum使用gpload通过gpfdist实现文件的高速加载
本文章介绍Greenplum(简称GP)的并行化数据加载。GP数据库使用外部表特性支持快速,并行化的数据加载。我们可以使用单行错误隔离模式来加载外部表数据,将错误或格式有问题的记录数加载到独立的错误表里面。通过使用外部表结合GP数据库的并行文件服务器gpfdist功能,我们能够实现最大并行度和加载带宽。如下图使用gpfdist实现外部表数据加载: Greenplum数据库另外也提供gpload工具原创 2016-07-03 22:44:28 · 18068 阅读 · 0 评论 -
Greenplum或DeepGreen数据库查看表倾斜的方法总结
上次有个朋友咨询我一个GP数据倾斜的问题,他说查看gp_toolkit.gp_skew_coefficients表时花费了20-30分钟左右才出来结果,后来指导他分析原因并给出其他方案来查看数据倾斜。 目前他使用的版本是最新的版本为:Greenplum Version: 'postgres (Greenplum Database) 4.3.8.2 build 1' 其实很多朋友经常使用如下的方式来原创 2016-06-30 18:42:36 · 12063 阅读 · 2 评论 -
安装Greenplum-perfmon-web监控软件
安装Greenplum-perfmon-web监控软件(1) 安装前准备OS:SUSE Linux Enterprise Server 11 (x86_64)VERSION = 11PATCHLEVEL = 1软件包:greenplum-perfmon-web-4.1.1.3-build-4-RHEL5-x86_64.zip安装节点:GP Master节原创 2014-05-15 17:28:43 · 3135 阅读 · 3 评论 -
Perl连接GP的模板
#!/usr/bin/perl use DBI;use strict;use POSIX;#判断入参个数,至少为3个,dbname 数据库名; dbuser 用户名; password 密码unless (@ARGV == 3) { die "Usage: $0 dbname dbuser password\n";}#接收传入的参数 m原创 2015-02-07 12:11:15 · 1237 阅读 · 0 评论 -
配置GP访问Hadoop的HDFS文件系统
(1) 添加GPDB所有节点配置环境变量修改安装Greenplum DB数据库用户家目录下面的环境变量文件.bashrc,添加如下内容:exportJAVA_HOME=/home/gpadmin/jdk1.6.0_32export CLASSPATH=$JAVA_HOME/lib/tools.jarexportHADOOP_HOME=/home/dbadmin/hadoo原创 2015-02-07 12:16:46 · 3844 阅读 · 0 评论 -
测试创建GP外部表
测试创建外部表(1) Hadoop的HDFS里面准备测试数据查看准备的全部数据文件,以及每个文件大小(共32个文件):hadoop fs -ls -R -h/result_file/wide_file/20140318/wide_file_gb_2014031813.dat-*-rw-r--r-- 3 bdi supergroup 32.3 M 2014-05原创 2015-02-12 22:01:06 · 2089 阅读 · 0 评论 -
Perl脚本访问Greenplum数据库安装指导
安装前准备(1)操作系统(系统上面要安装一些必备的开发工具(比如gcc等)) linux-82:/home/PlODBC # cat/etc/SuSE-release SUSE Linux EnterpriseServer 11 (x86_64)VERSION = 11PATCHLEVEL = 1 (2)安装所需的软件包greenplum-connectivit原创 2015-02-27 20:35:51 · 2968 阅读 · 0 评论 -
Greenplum的Oracle兼容性函数
许多Oracle的SQL函数可以应用到Greenplum数据库中。Greenplum默认安装完成后并不能使用Oracle的兼容性函数。template1=# select nvl(null,2);ERROR: function nvl(unknown, integer) does not existLINE 1: select nvl(null,2);在使用任何Oracl原创 2016-06-25 23:56:32 · 4373 阅读 · 2 评论 -
GP基本命令
su - gpadmingpstart #正常启动gpstop #正常关闭gpstop -M fast #快速关闭gpstop –r #重启gpstop –u #重新加载配置文件登陆与退出Greenplum#正常登陆psql gpdbpsql -d gpdb -h gphostm -p 5432 -U gpadmin#使用utility方式PGOPT原创 2015-02-07 11:46:13 · 16308 阅读 · 0 评论 -
Greenplum中exit,return和label的注意事项
Greenplum中exit和return的注意事项1. 先来看exitCREATE OR REPLACE FUNCTION test_exit()RETURNS integer AS$$DECLARE count int;BEGIN count := 1; LOOP count := count + 1;原创 2016-06-26 12:01:29 · 2000 阅读 · 0 评论 -
Greenplum数据库的vacuum操作与max_fsm_pages参数的关系
我们都知道Greenplum架构中的每一个segment都是postgresql的实例,而vacuum是postgresql中常用的数据库维护的命令,所以Greenplum数据库也使用vacuum来定期清理表,以防止表由于insert,update等操作导致表过度膨胀。 vacuum的作用是回收已删除元组占据的存储空间。因为MVCC机制,delete和update的元组是没有从表中物理删掉原创 2016-06-28 18:08:28 · 4652 阅读 · 0 评论 -
解析Greenplum每个实例的postmaster.opts和postmaster.pid内容
本文档解析Greenplum每一个postgresql实例的目录下面的postmaster.opts和postmaster.pid文件内容,其内容和PostgreSQL略有差别。比如我们看一下Master节点是实例内容:[root@cdha ~]# cd /data/master/gpseg-1/[root@cdha gpseg-1]# lltotal 136drwx-原创 2016-06-28 23:07:11 · 4991 阅读 · 0 评论 -
Greenplum(4.3.8.2)使用GPHDFS协议创建外部表访问CDH5.7.0环境的HDFS文件系统
本篇文章主要介绍使用Greenplum访问HDFS文件。 1. 环境CDH 5.7.0集成环境,其中Hadoop版本为2.6.0Greenplum版本为4.3.8.2 2. 安装部署第一步:所有segment,master和standby master节点都安装Java 1.6及以上版本(CDH5.7.0已经部署,略过) 第二步:安装GPDB(Greenplum Datab原创 2016-06-30 11:35:19 · 10837 阅读 · 0 评论 -
Greenplum中Heap表膨胀查看和解决方案
在某些情况下,因为底层存储架构的原因,Greenplum的Heap表很容易出现膨胀(Bloat)。Bloat会影响表的扫描性能,从而影响查询性能。1. 什么是表膨胀?表膨胀是指在一张表的数据文件中积累的自由空间(free space)被旧数据行使用。这些空间已经被之前删除或者不再访问的数据使用。不能做表的维护以重用这些空间,导致表数据文件越来越大,所以表扫描需要更长的时间。2.原创 2016-08-10 14:19:21 · 4875 阅读 · 0 评论