jameswangcnbj-CSDN博客

原创 HDB IN ACTION(2)

五、命令行安装HDB2.2 1.系统参数vi /etc/sysctl.conf #modify kernel.sysrq = 1 net.ipv4.tcp_syncookies = 0 #added for hawq kernel.shmmni = 4096 kernel.sem = 250 512000 100

2017-04-25 16:57:15 415

原创 HDB IN ACTION(1)

一、SQL on Hadoop 我们需要知道业界很多产品如hive、Presto、Drill、SparkSQL、Impala等均在发力sql on hadoop,如果谈及这个话题，需要很多的篇幅，我们这里只需要知道hawq是开源的一款sql on hadop的产品，具体它的优势，请另行查询，熟悉greenplum的用户应该知道mpp数据库的强劲性能而hawq2.0是将mpp和had

2017-04-25 16:14:24 444

原创 MADlib---indatabase的可扩展数据库分析的开源库

Apache™MADlib®是用于可扩展数据库分析的开源库。它提供了Pivotal Greenplum™ ， PostgreSQL和Apache™HAWQ®（孵化） Hadoop Native SQL平台上的机器学习，数学和统计方法的数据并行实现。 MADlib使用MPP架构的完整计算能力处理非常大的数据集，而其他产品受到单个节点上可以加载到内存中的数据量的限制。 MADLib算法从熟悉的SQL...

2017-03-28 17:09:54 262 1

原创 MADlib---indatabase的可扩展数据库分析的开源库

Apache™MADlib®是用于可扩展数据库分析的开源库。它提供了Pivotal Greenplum™ ， PostgreSQL和Apache™HAWQ®（孵化） Hadoop Native SQL平台上的机器学习，数学和统计方法的数据并行实现。 MADlib使用MPP架构的完整计算能力处理非常大的数据集，而其他产品受到单个节点上可以加载到内存中的数据量的限制。 MADLib算法从熟悉的SQL接

2017-03-28 15:10:27 609

原创 GPDB-gphdfs

Greenplum本地支持并行地将HDFS上的数据加载到数据库中，采用的方式就是用gphdfs协议，本文简要介绍部署和测试细节。1.master和segment安装java 1.1 删除已经安装的java组件 yum -y remove java 或者： rpm -qa | grep java查找安装的包 rpm -e --nodeps java-1.4.2-gcj-comp

2017-03-28 14:50:12 1318

原创 kettle安装启动注意事项

最近在弄kettle，关于kettle的介绍不多赘述，简单说就是一个ETL工具，只不过NB一些，官网：http://community.pentaho.com/projects/data-integration/这里在下载安装的一些最常规的东西从网上查了下，都没有描述，难道太简单没人说嘛？反正有些问题我是很费劲才找到答案的1.版本问题最新版本的kettle7是需要安装jdk8的，jdk7就不用

2017-02-23 15:18:39 1179 1

原创 hadoop原生版安装部署---5.hbase

按照之前的规划，一共4台虚拟机c9tet91 c89test92 c9test93 c9test94 如未加特殊说明，以下操作均在hadoop用户下进行 1.规划 91 HMaster 92 backupmaster 93 HRegionServer 94 HregionServer 2.安装部署 2.1 找到

2017-02-23 15:02:25 431

原创 hadoop原生版安装部署---4.snappy

snappy的介绍就不多说，我们只需要知道它是一个压缩库在hadoop中有着很广泛的使用，具体详见http://www.infoq.com/cn/news/2011/04/Snappy/环境：hadoop4台测试环境，详见之前文章1.安装包yum install gcc c++ autoconf automake libtool gcc+ gcc-c++2.安装maven3cd /usr/local

2017-02-15 16:20:25 394

原创 hadoop原生版安装部署---3.hdfs

1.下载安装 tar xzvf hadoop-2.2.0.tar.gz -C ../ mv hadoop-2.2.0/ hadoop/2.bash_profilesu - hadoop export HADOOP_PREFIX="/home/hadoop/hadoop" export HADOOP_MAPRED_HOME=$HADOOP_PREFIX export HADOOP_COM

2017-02-15 15:46:55 338

原创 hadoop原生版安装部署---2.zookeeper

zookeeper需要部署在c9test91、c9test92、c9test93共3台机器上1.软件下载和安装 su - hadoop mkdir software tar xzvf zookeeper-3.4.5.tar.gz -C ../ mv ../zookeeper-3.4.5 ../zookeeper/2.目录准备 mkdir /home/hadoop/zookeeper/

2017-02-15 15:14:25 236

原创 hadoop原生版安装部署---1.集群规划和准备

1.集群规划主机安装软件进程 c9test91 jdk hadoop zk NameNode、DFSZKFailoverController、JournalNode、QuorumPeerMain c9test92 jdk hadoop zk NameNode、DFSZKFailoverController、JournalNode、QuorumPeerMain

2017-02-15 14:53:17 341

原创 centos挂载

1.挂载光驱mkdir /mnt/cdrommount /dev/cdrom /mnt/cdrom--卸载umount /dev/cdrom /mnt/cdrom2.挂载U盘或者外接硬盘 fdisk -l 与df -h /*对比查看新的硬盘*/ Disk /dev/sde: 500.1 GB, 500074283008 bytes255 heads, 63 sectors/track

2016-12-27 11:33:50 275

原创 GPCC的卸载

在一些特殊情况下，我们需要卸载原先安装的GPCC，参考GPCC的官方文档，汇总如下#1.停止服务gpcmdr --stop#2.删除软件目录，替换为自己的真实路径rm -rf /usr/local/greenplum-cc-web-version#3.停止数据收集代理(data collection agents)su - gpadmin#修改配置文件vi $MASTER_DATA_DIR

2016-11-22 10:20:00 754

原创 GPCC升级3.0

新发布的GPCC（Greenplum Command Center）新出了3.0的版本，这是gpdb集群的监控软件摒弃了之前老版本采用的flash界面，全面采用了html5的方式，感觉清爽干净了很多，拥抱了扁平化，迎合了当前趋势。升级过程基本顺利，参照GPCC的相关文档，但是文档没有就升级过程中可能出现的问题进行说明，不能不说是个遗憾，现在我将汇总如下。1.环境确认既然是升级，之前肯定

2016-11-22 10:08:35 700

原创 tableau server端口和密码修改

tableau默认的访问端口是80，很多情况下，对于IT审计和安全考虑，这个端口是不允许开放的，因为我们需要对这个端口进行修改，当然这个操作可以在部署开始进行，这里说的是安装的时候是默认80，现在需要修改的情况。1.修改端口修改可以有两种方式，一种是通过configuration的图形化界面有可能需要先停止server后进行修改保存，再启动即可。还有一种方式是通过命令行方式：

2016-11-08 12:44:42 4789

转载 PostgreSQL连接池pgbouncer的使用

pgbouncer是一款轻量级针对postgresql的数据库连接工具，可以对客户端的连接做限制，防止恶意连接，另外也可以减少数据库的实际连接数，从而减少数据库的开销。环境： VMWARE 8 CentOS 5.7 PG 9.1.2 pgbouncer 1.5.2 libevent-2.0.19一.安装 1.下载pgbouncer的安装包 http://pgfoundry.org

2016-10-13 15:27:43 1713 1

原创升级centos的Python

centos6的默认Python版本是2.6.*，如centos6.4的版本是2.6.6，太老了，准备升级到2.7.12，记录下过程。cd /usr/local/wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgztar xzvf Python-2.7.12.tgz#首先要新建一个目录，用来作为Python2.7.10的

2016-10-13 11:30:31 378

原创 Alluxio初探

Alluxio的使用场景：如果你感觉在spark或者其他Hadoop的上层应用去操作hdfs的时候性能不理想，可以在应用和底层文件之间加入这个内存级别的框架，或者简单我们理解为缓存，其实这层的操作和hdfs的操作极为相似，对上层的影响很小，性能应该会有比较明显的提升。国内很多厂商已经在使用了，比如华为等知名企业，而且目前已经支持了阿里的OSS，感觉这个产品的切入点很好，大家应该持续关注一下。

2016-09-26 17:32:47 2081

原创 oracle非归档模式下物理文件删除恢复

今天发生了一次很惊险的事情，之前由于误操作，将磁盘上一个几百G的文件夹删除掉，今天发现，其实是数据库的数据文件，惊出一身汗，仔细查看发现以下的现象 1.数据库还可以正常访问，用户登录正常 2.查询和插入表数据报错 3.新建表成功，但是无法插入数据 4.最重要的，误删除后，数据库没有重启通过以上现象，可以得出，system表空间正常，只是用户的数据文件丢失，这个时候千万记住，不能重启不能重启不

2016-09-18 16:18:15 816

原创 GPCC修改默认登出时间

在运维greenplum的过程中，一般我们会安装官方的监控程序GPCC(Greenplum Command Center),最新版本已经到了2.3了，当然开源版本是没有这个GPCC的。新的2.3的版本在安装过程中，发现新增加了一个新的端口，旧端口号为28080，新的28090，安装后发现是新增加了一个web server，而且是HTML5的，还很粗糙，难怪叫beta web server. 这

2016-08-17 17:12:18 537

原创 GPDB的spread方式测试

在GPDB的mirror安装中，有两种方法，默认的group方式是将A机器备份在B机器上，这种方式有一个弊端，在A机器宕机后，B机器上就运行了*2的节点数量的运算和存储，这样势必导致整个集群的运算性能极具下降，甚至不能使用；因此官方也推荐mirror的使用方式为spread，前提是机器的segment host数量为每台机器上的segment+1，举个例子：有4台机器作为seghost，每单机器3个

2016-08-16 14:05:56 1229

转载 Tableau Server9.1.2 配置集群

Tableau Server 9.1.2 配置集群手册由于工作中需要使用TableauServer，如果只安装单机版，尽管我们的单机服务器配置已经很不错了，但是在使用的时候依然感觉有点力不从心，最明显的表现是每天的数据提取定时任务完成的相当慢，所以再拉两台电脑过来配置成集群，对服务器的性能提高有很大的帮助。Tableau官方有配置集群的教程文档，给人的感觉就是下面这张图的效果 “再添加一些细节，就

2016-08-11 14:48:24 1605 1

原创数据分析常用数据源汇总

本文根据知乎相应内容汇总。 1.UCI是最经典的，不过也比较古老 2.数据堂最近异军突起，非常值得称赞 3.国外还有一些网站，比如http://mlcomp.org/，http://mldata.org/你可以看看另外KDDCUP每年都会针对一个特定的问题进行比赛，数据集也是公开的最近几年，数据挖掘的比赛越来越多了，你可以去PASCAL上看看你感兴趣的领域，自己搜索一下 http:/

2016-08-11 14:42:25 1833 1

原创数据分析常用数据源汇总

本文根据知乎相应内容汇总。 1.UCI是最经典的，不过也比较古老 2.数据堂最近异军突起，非常值得称赞 3.国外还有一些网站，比如http://mlcomp.org/，http://mldata.org/你可以看看另外KDDCUP每年都会针对一个特定的问题进行比赛，数据集也是公开的最近几年，数据挖掘的比赛越来越多了，你可以去PASCAL上看看你感兴趣的领域，自己搜索一下 http:

2016-08-03 13:50:53 1407

原创 tableau:柱图的两种实现方式

在tableau中，柱图是经常使用的表现形式之一，日常使用中，有很多种具体形式，看看下面的两张图，我们来探讨具体的实现方式。 1.图1的双柱图的实现方式数据例子均采用《tableau：数据可视化急速BI》中的某公司销售数据.xls目标：实现销售额和利润在不同年度的对比情况(1)分别双击订单日期、销售额和利润，如图所示 (2)选择图例中的“并排条” (3)按住Ctrl，将

2016-08-03 13:29:24 11092 1

原创 tableau：使用参数制作环比图

说明：使用附件中的某公司的销售数据 1.建立到excel的数据源，在工作表中可以看到如下信息 2.创建一些计算字段，分层结构和参数 (1)选中产品类别、产品子类别和产品名称，邮件创建分层结构，取名“销售产品”，或者将子类别和产品名称拖入产品类别中再修改名字 (2)选中销售额，右键创建参数 (3)创建计算字段 3.开始创建工作表双击订

2016-08-02 13:44:48 4352

原创 tableau SSO--Trusted Authentication实操

tableau在发布的时候，默认是需要登录的，但是在实际场景中，大多数的tableau的用户展示是和各自公司的自有系统整合在一起的，在这个时候，单点登录(SSO)是常用的措施之一，tableau也支持sso的相关配置。 1）SAML 2)Kerberos 3)OPENID 4)受信任的身份验证这里主要介绍受信任的身份认证下的操作，其余部分可自行查看tableau help.1.测

2016-07-06 16:58:36 6100

原创 tableau自定义logo

在将tableau desktop做出的图表发布到server端后，默认情况下，需要登录然后显示发布的工作簿，但是在这一过程中，tableau的默认图标一直会伴随着你，在某些特性的情况下（比如没购买正式版），不想让别人看到tableau的标，或者在某些商业活动的时候需要自定义自己的logo，这个时候可以按照下面的流程进行设置。注意以下的操作均在tableau server的安装目录的bi

2016-07-04 14:15:00 2568

原创 GPDB使用dblik

dblink是一个PostgreSQL contrib模块,允许对另一个数据库执行查询。当前PostgreSQL的模型需要用户连接到一个特定的数据库服务器上。因此,它本身是不可能对另一个数据库执行SQL查询。通常我们不鼓励使用dblink查询远程数据库。我们总是建议用户使用模式。但是在某些场景下，还是有一些用途的。1.检查是否安装了dblink gpadmin@linux-hd1:~> pg_

2016-06-21 14:13:23 584

原创 Greenplum client Tools使用

在日常运维过程中，除了GPDB集群的安装外，我们很多的日常工作在于ETL，但是开始的时候很多公司都没有配备专门的etl服务器，大量的工作在master或者standby机器上运行，但是一旦业务较为繁忙，etl的工作势必会对生产的机器产生消极影响，因此etl服务器的增加便会提上议事日程。 etl服务器其实仅仅需要的是一个客户端工具，可以通过psql连接到集群的机器，当然这台机器也一般会与集群机器在一

2016-06-13 09:55:58 1930

原创 GPDB的数据倾斜问题

DB运行了一段时间后，数据发生了变化，在不同节点的数据分布会发生问题，有的节点分配的数据较多有的较少，这样在查询的时候会导致性能的降低，我们常规的查询手段是通过Select gp_segment_id,count(*) from tablename group by 1 ;但是如果库中的表比较多，这样查询很费事，有人编写了函数，拿来主义CREATE OR REPLACE FUNCTION pub

2016-05-18 10:20:49 505

原创 crontab 无法执行psql命令

编写shell脚本单独执行没有问题，在crontab中无法执行，报命令没找到，修改shell脚本将psql命令的绝对路径写全后，报 psql: error while loading shared libraries: libpq.so.5: cannot open shared object file: No such file or directory在切换到gpadmin用户下创建cront

2016-05-18 10:09:56 1225

原创 ERROR: invalid memory alloc request size 1111005384

一般出现此问题多是由于调整系统参数值为一个错误的值导致的。恢复参数默认值可以使用gpconfig来批量设置master和segmentgpconfig -r <参数> -- 把参数重置成默认值如果想查询参数的取值范围，可以通过下面的方法获取psql postgrespostgres=#select * from pg_settings where name ~ '参数名'; --可看到

2016-04-27 15:11:23 4181

原创 ERROR: insufficient memory reserved for statement tuplesort_mk.h:115

这个错误是个困扰我很长时间的问题，我发生此问题在进行大数据导入的时候，开始发现此错误提示的时候，我们都会从内存调整的角度去考虑，比如调整内存相关的参数，比如我按照如下的调整。gpconfig -c max_statement_mem -v 10GB #单个查询最大内存gpconfig -c max_work_mem -v 10GB #与上面相关gpconfig -c stateme

2016-04-27 15:02:16 3467

原创 relation "public.***" contains more than "max_fsm_pages" pages with useful free space

有时我们在操作大表的时候会发生relation “public.*” contains more than “max_fsm_pages” pages with useful free space的错误，其实这个错误和max_fsm_pages参数有关。max_fsm_pages必须大于 16 * max_fsm_relations，且max_fsm_pages最小必须为100,看出当max_fsm

2016-04-27 14:49:28 2608

原创 GPDB gprecoverseg -F Unable to connect to database

在GPDB运维过程中，有时会发生节点错误，一般采用gprecoverseg 进行节点的恢复，如果不能恢复，会尝试使用gprecoverseg -F进行全量恢复，一般在这个环节问题可以解决。但是个别情况下，会报出Unable to connect to database的错误，这个时候就需要特别处理了。错误信息：报错信息为Unable to connect to database. Retryin

2016-04-27 14:43:43 1409

原创 Spark1.6 onYARN 安装手记

在现在的环境中hadoop+spark+mpp的OLAP的场景越来越多，学习spark需要的第一步就是搭建测试环境。一、前提准备 spark或者说hadoop集群的最小机器就是3台，分别如下：192.168.206.27 master192.168.206.33 slave1 192.168.203.19 slave2 1.修改机器名vi /etc/sysconfig/network

2016-03-18 15:49:40 696

原创 MPP VS HADOOP场景分析

1.节点 MPP，这里以Greenplum为代表，不超过100节点，不过这里说的100节点是说100台机器还是100个节点，按照实际部署，一台物理机器其实不会只部署一个节点的，这里我严重怀疑是100台机器，因为我在实际中已经用3台物理机做出了10节点的情况（6台虚拟机，1master5segment,双节点双网卡）因此，如果部署节点数在100下，用GP没问题，在实际中小型企业中，超过1

2016-03-04 17:10:36 6181

原创分布式文件系统选型

目前的分布式文件系统很多，各自有各自的优点，但是目前的分布式文件系统都有各自的适用场景，这里做一备份，很多信息都是网上搜集来的： 1.大文件存储 HDFS是目前的不二选择，原因无需赘述2.小文件系统 taobao专门为它开发一套DFS，叫TFS. 它好像是按照默认64M来全局组块的。多个小图片文件可以存到同一个块中。name server有主和备。chunk server或叫data

2016-03-04 15:57:12 1149

原创生产系统安装Greenplum实例--多节点多网段模式

先说一点题外话，为什么要在这里写博客，为了得到大家的关注、认可，或是交流，其实这些目前都还没有达到，博客换了很多地方，从之前的杂言乱语，情绪抒发，到现在的记录点滴，其实这一切如果说当初有哗众取宠之意，那现在过往许久，只是记录自己生命中这个时段的点滴而已，其实汇总成文字的过程就是自己提炼总结的过程，在写的过程中你会发现你之前的很多碎片的东西可以串起来，就当是对自己的犒赏，写给自己，至于过客或喜或恶，只

2016-03-04 12:38:51 3293

空空如也

空空如也