- 博客(14)
- 资源 (11)
- 收藏
- 关注
原创 Greenplum或DeepGreen数据库查看表倾斜的方法总结
上次有个朋友咨询我一个GP数据倾斜的问题,他说查看gp_toolkit.gp_skew_coefficients表时花费了20-30分钟左右才出来结果,后来指导他分析原因并给出其他方案来查看数据倾斜。 目前他使用的版本是最新的版本为:Greenplum Version: 'postgres (Greenplum Database) 4.3.8.2 build 1' 其实很多朋友经常使用如下的方式来
2016-06-30 18:42:36 12063 2
原创 Greenplum(4.3.8.2)使用GPHDFS协议创建外部表访问CDH5.7.0环境的HDFS文件系统
本篇文章主要介绍使用Greenplum访问HDFS文件。 1. 环境CDH 5.7.0集成环境,其中Hadoop版本为2.6.0Greenplum版本为4.3.8.2 2. 安装部署第一步:所有segment,master和standby master节点都安装Java 1.6及以上版本(CDH5.7.0已经部署,略过) 第二步:安装GPDB(Greenplum Datab
2016-06-30 11:35:19 10837
原创 解析Greenplum每个实例的postmaster.opts和postmaster.pid内容
本文档解析Greenplum每一个postgresql实例的目录下面的postmaster.opts和postmaster.pid文件内容,其内容和PostgreSQL略有差别。比如我们看一下Master节点是实例内容:[root@cdha ~]# cd /data/master/gpseg-1/[root@cdha gpseg-1]# lltotal 136drwx-
2016-06-28 23:07:11 4991
原创 Greenplum数据库的vacuum操作与max_fsm_pages参数的关系
我们都知道Greenplum架构中的每一个segment都是postgresql的实例,而vacuum是postgresql中常用的数据库维护的命令,所以Greenplum数据库也使用vacuum来定期清理表,以防止表由于insert,update等操作导致表过度膨胀。 vacuum的作用是回收已删除元组占据的存储空间。因为MVCC机制,delete和update的元组是没有从表中物理删掉
2016-06-28 18:08:28 4652
原创 Greenplum中exit,return和label的注意事项
Greenplum中exit和return的注意事项1. 先来看exitCREATE OR REPLACE FUNCTION test_exit()RETURNS integer AS$$DECLARE count int;BEGIN count := 1; LOOP count := count + 1;
2016-06-26 12:01:29 2000
原创 Greenplum的Oracle兼容性函数
许多Oracle的SQL函数可以应用到Greenplum数据库中。Greenplum默认安装完成后并不能使用Oracle的兼容性函数。template1=# select nvl(null,2);ERROR: function nvl(unknown, integer) does not existLINE 1: select nvl(null,2);在使用任何Oracl
2016-06-25 23:56:32 4373 2
原创 Greenplum或DeepGreen中使用外部表访问Hive数据(分隔符是Hive表默认列分隔符)
在Greenplum或DeepGreen中,使用外部表访问Hive表的数据,并且文件数据的列分隔符是Hive默认的方式'\001'。1. 查看数据[gpadmin@JSZ ~]$ cat ok.txt 1^ASpark2^AHadoop2. 在Hive中创建表,包括并加载数据hive> create table ok(id int,name string) ro
2016-06-20 16:52:03 5034 4
原创 Greenplum或DeepGreen的管理数据
1. 关于GPDB的并发控制与事务型数据库系统通过锁机制来控制并发访问的机制不同, GPDB(与PostgreSQL一样)使用多版本控制(Multiversion Concurrency Control/MVCC)保证数据一致性。 这意味着在查询数据库时,每个事务看到的只是数据的快照,其确保当前的事务不会看到其他事务在相同记录上的修改。据此为数据库的每个事务提供事务隔离。
2016-06-19 12:13:26 4615 2
原创 Greenplum或DeepGreen数据库对象的使用和管理
1. 创建文件空间[gpadmin@cdha ~]$ gpfilespace -o gpfilespace_config #当前目录下生成gpfilespace_config文件Enter a name for this filespace> zhangyun_fs #手工输入primary location 1> /dbfast_zhangyun_tbs/pri
2016-06-19 10:50:51 10544 3
原创 Greenplum或DeepGreen中检查资源队列状态
查看分配到资源队列的 ROLE要查看ROLE与资源队列之间的关联关系,使用系统日志表pg_roles和gp_toolkit.gp_resqueue_status来获得:SELECT rolname, rsqname FROM pg_roles, gp_toolkit.gp_resqueue_statusWHERE pg_roles.rolresqueue=gp_toolkit.gp_r
2016-06-18 13:13:59 3542
原创 Kylin的保存查询SQL时提示kylin_metadata2_user类似的表不存在
之前在使用Kylin的Insight中的查询保存功能时,如下:但是单击Save时,一直没有反应,查看日志会出现如下的错误信息:2016-06-03 11:17:27,855 ERROR[http-bio-7070-exec-5] controller.BasicController:44 :org.apache.hadoop.hbase.TableNotFo
2016-06-03 11:34:33 3251
转载 Spark数据分析之第5课
对于http://blog.csdn.net/jiangshouzhuang/article/details/51550275中介绍的算法得出的推荐结果不怎么理想,下面进行进一步优化。 #评价推荐质量为了使用推荐变得有用,我们可以从数据集中拿出一些艺术家的播放数据放到一边,在整个ALS模型构建过程中并不使用这些数据。这些放在一边的数据中的艺术家可以作为每个用户的优秀推荐,但这些数据并...
2016-06-02 23:49:48 1700
原创 Kylin的RESTful API使用
目前根据Kylin的官方文档介绍,Kylin的认证是basic authentication,加密算法是Base64。在POST的header进行用户认证:执行:curl -c cookiefile.txt -X POST -H "Authorization: Basic QURNSU46S1lMSU4="-H 'Content-Type: application/json' ht
2016-06-02 16:47:57 10217 13
原创 CDH5.7.0遇到Oozie缺少Ext JS library的解决方法
环境信息:CDH版本:5.7.0-1.cdh5.7.0.p0.45 问题:CDH环境搭建好之后,访问Oozie管理页面时,出现如下问题:解决方法:根据提示,我们可以发现缺少Ext JS library,我们可以点击给出的网址链接:Oozie Quick Start 找到如下内容:然后找到ExtJS2.2下载,下载完成后上传到C
2016-06-01 10:21:02 2687
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人