自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据人

大数据、MPP、数据库、广告业

  • 博客(48)
  • 收藏
  • 关注

原创 HDB IN ACTION(2)

五、命令行安装HDB2.2 1.系统参数vi /etc/sysctl.conf #modify kernel.sysrq = 1 net.ipv4.tcp_syncookies = 0 #added for hawq kernel.shmmni = 4096 kernel.sem = 250 512000 100

2017-04-25 16:57:15 415

原创 HDB IN ACTION(1)

一、SQL on Hadoop 我们需要知道业界很多产品如hive、Presto、Drill、SparkSQL、Impala等均在发力sql on hadoop,如果谈及这个话题,需要很多的篇幅, 我们这里只需要知道hawq是开源的一款sql on hadop的产品,具体它的优势,请另行查询,熟悉greenplum的用户应该知道mpp数据库的强劲性能 而hawq2.0是将mpp和had

2017-04-25 16:14:24 444

原创 MADlib---indatabase的可扩展数据库分析的开源库

Apache™MADlib®是用于可扩展数据库分析的开源库。 它提供了Pivotal Greenplum™ , PostgreSQL和Apache™HAWQ®(孵化) Hadoop Native SQL平台上的机器学习,数学和统计方法的数据并行实现。 MADlib使用MPP架构的完整计算能力处理非常大的数据集,而其他产品受到单个节点上可以加载到内存中的数据量的限制。 MADLib算法从熟悉的SQL...

2017-03-28 17:09:54 262 1

原创 MADlib---indatabase的可扩展数据库分析的开源库

Apache™MADlib®是用于可扩展数据库分析的开源库。 它提供了Pivotal Greenplum™ , PostgreSQL和Apache™HAWQ®(孵化) Hadoop Native SQL平台上的机器学习,数学和统计方法的数据并行实现。 MADlib使用MPP架构的完整计算能力处理非常大的数据集,而其他产品受到单个节点上可以加载到内存中的数据量的限制。 MADLib算法从熟悉的SQL接

2017-03-28 15:10:27 609

原创 GPDB-gphdfs

Greenplum本地支持并行地将HDFS上的数据加载到数据库中,采用的方式就是用gphdfs协议,本文简要介绍部署和测试细节。1.master和segment安装java 1.1 删除已经安装的java组件 yum -y remove java 或者: rpm -qa | grep java查找安装的包 rpm -e --nodeps java-1.4.2-gcj-comp

2017-03-28 14:50:12 1318

原创 kettle安装启动注意事项

最近在弄kettle,关于kettle的介绍不多赘述,简单说就是一个ETL工具,只不过NB一些,官网:http://community.pentaho.com/projects/data-integration/这里在下载安装的一些最常规的东西从网上查了下,都没有描述,难道太简单没人说嘛?反正有些问题我是很费劲才找到答案的1.版本问题 最新版本的kettle7是需要安装jdk8的,jdk7就不用

2017-02-23 15:18:39 1179 1

原创 hadoop原生版安装部署---5.hbase

按照之前的规划,一共4台虚拟机c9tet91 c89test92 c9test93 c9test94 如未加特殊说明,以下操作均在hadoop用户下进行 1.规划 91 HMaster 92 backupmaster 93 HRegionServer 94 HregionServer 2.安装部署 2.1 找到

2017-02-23 15:02:25 431

原创 hadoop原生版安装部署---4.snappy

snappy的介绍就不多说,我们只需要知道它是一个压缩库在hadoop中有着很广泛的使用,具体详见http://www.infoq.com/cn/news/2011/04/Snappy/环境:hadoop4台测试环境,详见之前文章1.安装包yum install gcc c++ autoconf automake libtool gcc+ gcc-c++2.安装maven3cd /usr/local

2017-02-15 16:20:25 394

原创 hadoop原生版安装部署---3.hdfs

1.下载安装 tar xzvf hadoop-2.2.0.tar.gz -C ../ mv hadoop-2.2.0/ hadoop/2.bash_profilesu - hadoop export HADOOP_PREFIX="/home/hadoop/hadoop" export HADOOP_MAPRED_HOME=$HADOOP_PREFIX export HADOOP_COM

2017-02-15 15:46:55 338

原创 hadoop原生版安装部署---2.zookeeper

zookeeper需要部署在c9test91、c9test92、c9test93共3台机器上1.软件下载和安装 su - hadoop mkdir software tar xzvf zookeeper-3.4.5.tar.gz -C ../ mv ../zookeeper-3.4.5 ../zookeeper/2.目录准备 mkdir /home/hadoop/zookeeper/

2017-02-15 15:14:25 236

原创 hadoop原生版安装部署---1.集群规划和准备

1.集群规划 主机 安装软件 进程 c9test91 jdk hadoop zk NameNode、DFSZKFailoverController、JournalNode、QuorumPeerMain c9test92 jdk hadoop zk NameNode、DFSZKFailoverController、JournalNode、QuorumPeerMain

2017-02-15 14:53:17 341

原创 centos挂载

1.挂载光驱mkdir /mnt/cdrommount /dev/cdrom /mnt/cdrom--卸载umount /dev/cdrom /mnt/cdrom2.挂载U盘或者外接硬盘 fdisk -l 与df -h /*对比查看新的硬盘*/ Disk /dev/sde: 500.1 GB, 500074283008 bytes255 heads, 63 sectors/track

2016-12-27 11:33:50 275

原创 GPCC的卸载

在一些特殊情况下,我们需要卸载原先安装的GPCC,参考GPCC的官方文档,汇总如下#1.停止服务gpcmdr --stop#2.删除软件目录,替换为自己的真实路径rm -rf /usr/local/greenplum-cc-web-version#3.停止数据收集代理(data collection agents)su - gpadmin#修改配置文件vi $MASTER_DATA_DIR

2016-11-22 10:20:00 754

原创 GPCC升级3.0

新发布的GPCC(Greenplum Command Center)新出了3.0的版本,这是gpdb集群的监控软件摒弃了之前老版本采用的flash界面,全面采用了html5的方式,感觉清爽干净了很多,拥抱了扁平化,迎合了当前趋势。 升级过程基本顺利,参照GPCC的相关文档,但是文档没有就升级过程中可能出现的问题进行说明,不能不说是个遗憾,现在我将汇总如下。1.环境确认 既然是升级,之前肯定

2016-11-22 10:08:35 700

原创 tableau server端口和密码修改

tableau默认的访问端口是80,很多情况下,对于IT审计和安全考虑,这个端口是不允许开放的,因为我们需要对这个端口进行修改,当然这个操作可以在部署开始进行,这里说的是安装的时候是默认80,现在需要修改的情况。1.修改端口 修改可以有两种方式,一种是通过configuration的图形化界面 有可能需要先停止server后进行修改保存,再启动即可。还有一种方式是通过命令行方式:

2016-11-08 12:44:42 4789

转载 PostgreSQL连接池pgbouncer的使用

pgbouncer是一款轻量级针对postgresql的数据库连接工具,可以对客户端的连接做限制,防止恶意连接,另外也可以减少数据库的实际连接数,从而减少数据库的开销。 环境: VMWARE 8 CentOS 5.7 PG 9.1.2 pgbouncer 1.5.2 libevent-2.0.19一.安装 1.下载pgbouncer的安装包 http://pgfoundry.org

2016-10-13 15:27:43 1713 1

原创 升级centos的Python

centos6的默认Python版本是2.6.*,如centos6.4的版本是2.6.6,太老了,准备升级到2.7.12,记录下过程。cd /usr/local/wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgztar xzvf Python-2.7.12.tgz#首先要新建一个目录,用来作为Python2.7.10的

2016-10-13 11:30:31 378

原创 Alluxio初探

Alluxio的使用场景:如果你感觉在spark或者其他Hadoop的上层应用去操作hdfs的时候性能不理想,可以在应用和底层文件之间加入这个内存级别的框架,或者简单我们理解为缓存,其实这层的操作和hdfs的操作极为相似,对上层的影响很小,性能应该会有比较明显的提升。 国内很多厂商已经在使用了,比如华为等知名企业,而且目前已经支持了阿里的OSS,感觉这个产品的切入点很好,大家应该持续关注一下。

2016-09-26 17:32:47 2081

原创 oracle非归档模式下物理文件删除恢复

今天发生了一次很惊险的事情,之前由于误操作,将磁盘上一个几百G的文件夹删除掉,今天发现,其实是数据库的数据文件,惊出一身汗,仔细查看发现以下的现象 1.数据库还可以正常访问,用户登录正常 2.查询和插入表数据报错 3.新建表成功,但是无法插入数据 4.最重要的,误删除后,数据库没有重启通过以上现象,可以得出,system表空间正常,只是用户的数据文件丢失,这个时候千万记住,不能重启不能重启不

2016-09-18 16:18:15 816

原创 GPCC修改默认登出时间

在运维greenplum的过程中,一般我们会安装官方的监控程序GPCC(Greenplum Command Center),最新版本已经到了2.3了,当然开源版本是没有这个GPCC的。 新的2.3的版本在安装过程中,发现新增加了一个新的端口,旧端口号为28080,新的28090,安装后发现是新增加了一个web server,而且是HTML5的,还很粗糙,难怪叫beta web server. 这

2016-08-17 17:12:18 537

原创 GPDB的spread方式测试

在GPDB的mirror安装中,有两种方法,默认的group方式是将A机器备份在B机器上,这种方式有一个弊端,在A机器宕机后,B机器上就运行了*2的节点数量的运算和存储,这样势必导致整个集群的运算性能极具下降,甚至不能使用;因此官方也推荐mirror的使用方式为spread,前提是机器的segment host数量为每台机器上的segment+1,举个例子:有4台机器作为seghost,每单机器3个

2016-08-16 14:05:56 1229

转载 Tableau Server9.1.2 配置集群

Tableau Server 9.1.2 配置集群手册由于工作中需要使用TableauServer,如果只安装单机版,尽管我们的单机服务器配置已经很不错了,但是在使用的时候依然感觉有点力不从心,最明显的表现是每天的数据提取定时任务完成的相当慢,所以再拉两台电脑过来配置成集群,对服务器的性能提高有很大的帮助。Tableau官方有配置集群的教程文档,给人的感觉就是下面这张图的效果 “再添加一些细节,就

2016-08-11 14:48:24 1605 1

原创 数据分析常用数据源汇总

本文根据知乎相应内容汇总。 1.UCI是最经典的,不过也比较古老 2.数据堂最近异军突起,非常值得称赞 3.国外还有一些网站,比如http://mlcomp.org/,http://mldata.org/你可以看看 另外KDDCUP每年都会针对一个特定的问题进行比赛,数据集也是公开的 最近几年,数据挖掘的比赛越来越多了,你可以去PASCAL上看看你感兴趣的领域,自己搜索一下 http:/

2016-08-11 14:42:25 1833 1

原创 数据分析常用数据源汇总

本文根据知乎相应内容汇总。 1.UCI是最经典的,不过也比较古老 2.数据堂最近异军突起,非常值得称赞 3.国外还有一些网站,比如http://mlcomp.org/,http://mldata.org/你可以看看 另外KDDCUP每年都会针对一个特定的问题进行比赛,数据集也是公开的 最近几年,数据挖掘的比赛越来越多了,你可以去PASCAL上看看你感兴趣的领域,自己搜索一下 http:

2016-08-03 13:50:53 1407

原创 tableau:柱图的两种实现方式

在tableau中,柱图是经常使用的表现形式之一,日常使用中,有很多种具体形式,看看下面的两张图,我们来探讨具体的实现方式。 1.图1的双柱图的实现方式 数据例子均采用《tableau:数据可视化急速BI》中的某公司销售数据.xls目标:实现销售额和利润在不同年度的对比情况(1)分别双击订单日期、销售额和利润,如图所示 (2)选择图例中的“并排条” (3)按住Ctrl,将

2016-08-03 13:29:24 11092 1

原创 tableau:使用参数制作环比图

说明:使用附件中的某公司的销售数据 1.建立到excel的数据源,在工作表中可以看到如下信息 2.创建一些计算字段,分层结构和参数 (1)选中产品类别、产品子类别和产品名称,邮件创建分层结构,取名“销售产品”,或者将子类别和产品名称拖入产品类别中再修改名字 (2)选中销售额,右键创建参数 (3)创建计算字段 3.开始创建工作表 双击订

2016-08-02 13:44:48 4352

原创 tableau SSO--Trusted Authentication实操

tableau在发布的时候,默认是需要登录的,但是在实际场景中,大多数的tableau的用户展示是和各自公司的自有系统整合在一起的, 在这个时候,单点登录(SSO)是常用的措施之一,tableau也支持sso的相关配置。 1)SAML 2)Kerberos 3)OPENID 4)受信任的身份验证这里主要介绍受信任的身份认证下的操作,其余部分可自行查看tableau help.1.测

2016-07-06 16:58:36 6100

原创 tableau自定义logo

在将tableau desktop做出的图表发布到server端后,默认情况下,需要登录然后显示发布的工作簿,但是在这一过程中,tableau的默认图标一直会伴随着你, 在某些特性的情况下(比如没购买正式版),不想让别人看到tableau的标,或者在某些商业活动的时候需要自定义自己的logo,这个时候可以按照下面的流程进行设置。 注意以下的操作均在tableau server的安装目录的bi

2016-07-04 14:15:00 2568

原创 GPDB使用dblik

dblink是一个PostgreSQL contrib模块,允许对另一个数据库执行查询。当前PostgreSQL的模型需要用户连接到一个特定的数据库服务器上。因此,它本身是不可能对另一个数据库执行SQL查询。 通常我们不鼓励使用dblink查询远程数据库。我们总是建议用户使用模式。但是在某些场景下,还是有一些用途的。1.检查是否安装了dblink gpadmin@linux-hd1:~> pg_

2016-06-21 14:13:23 584

原创 Greenplum client Tools使用

在日常运维过程中,除了GPDB集群的安装外,我们很多的日常工作在于ETL,但是开始的时候很多公司都没有配备专门的etl服务器,大量的工作在master或者standby机器上运行,但是一旦业务较为繁忙,etl的工作势必会对生产的机器产生消极影响,因此etl服务器的增加便会提上议事日程。 etl服务器其实仅仅需要的是一个客户端工具,可以通过psql连接到集群的机器,当然这台机器也一般会与集群机器在一

2016-06-13 09:55:58 1930

原创 GPDB的数据倾斜问题

DB运行了一段时间后,数据发生了变化,在不同节点的数据分布会发生问题,有的节点分配的数据较多有的较少,这样在查询的时候会导致性能的降低,我们常规的查询手段是通过Select gp_segment_id,count(*) from tablename group by 1 ;但是如果库中的表比较多,这样查询很费事,有人编写了函数,拿来主义CREATE OR REPLACE FUNCTION pub

2016-05-18 10:20:49 505

原创 crontab 无法执行psql命令

编写shell脚本单独执行没有问题,在crontab中无法执行,报命令没找到,修改shell脚本将psql命令的绝对路径写全后,报 psql: error while loading shared libraries: libpq.so.5: cannot open shared object file: No such file or directory在切换到gpadmin用户下创建cront

2016-05-18 10:09:56 1225

原创 ERROR: invalid memory alloc request size 1111005384

一般出现此问题多是由于调整系统参数值为一个错误的值导致的。 恢复参数默认值可以使用gpconfig来批量设置master和segmentgpconfig -r <参数> -- 把参数重置成默认值如果想查询参数的取值范围,可以通过下面的方法获取psql postgrespostgres=#select * from pg_settings where name ~ '参数名'; --可看到

2016-04-27 15:11:23 4181

原创 ERROR: insufficient memory reserved for statement tuplesort_mk.h:115

这个错误是个困扰我很长时间的问题,我发生此问题在进行大数据导入的时候,开始发现此错误提示的时候,我们都会从内存调整的角度去考虑,比如调整内存相关的参数,比如我按照如下的调整。gpconfig -c max_statement_mem -v 10GB #单个查询最大内存gpconfig -c max_work_mem -v 10GB #与上面相关gpconfig -c stateme

2016-04-27 15:02:16 3467

原创 relation "public.***" contains more than "max_fsm_pages" pages with useful free space

有时我们在操作大表的时候会发生relation “public.*” contains more than “max_fsm_pages” pages with useful free space的错误,其实这个错误和max_fsm_pages参数有关。max_fsm_pages必须大于 16 * max_fsm_relations,且max_fsm_pages最小必须为100,看出当max_fsm

2016-04-27 14:49:28 2608

原创 GPDB gprecoverseg -F Unable to connect to database

在GPDB运维过程中,有时会发生节点错误,一般采用gprecoverseg 进行节点的恢复,如果不能恢复,会尝试使用gprecoverseg -F进行全量恢复,一般在这个环节问题可以解决。但是个别情况下,会报出Unable to connect to database的错误,这个时候就需要特别处理了。 错误信息:报错信息为Unable to connect to database. Retryin

2016-04-27 14:43:43 1409

原创 Spark1.6 onYARN 安装手记

在现在的环境中hadoop+spark+mpp的OLAP的场景越来越多,学习spark需要的第一步就是搭建测试环境。 一、前提准备 spark或者说hadoop集群的最小机器就是3台,分别如下:192.168.206.27 master192.168.206.33 slave1 192.168.203.19 slave2 1.修改机器名vi /etc/sysconfig/network

2016-03-18 15:49:40 696

原创 MPP VS HADOOP场景分析

1.节点 MPP,这里以Greenplum为代表,不超过100节点,不过这里说的100节点是说100台机器还是100个节点,按照实际部署,一台物理机器其实不会只部署一个节点的,这里我严重怀疑是100台机器,因为我在实际中已经用3台物理机做出了10节点的情况(6台虚拟机,1master5segment,双节点双网卡) 因此,如果部署节点数在100下,用GP没问题,在实际中小型企业中,超过1

2016-03-04 17:10:36 6181

原创 分布式文件系统选型

目前的分布式文件系统很多,各自有各自的优点,但是目前的分布式文件系统都有各自的适用场景,这里做一备份,很多信息都是网上搜集来的: 1.大文件存储 HDFS是目前的不二选择,原因无需赘述2.小文件系统 taobao专门为它开发一套DFS,叫TFS. 它好像是按照默认64M来全局组块的。多个小图片文件可以存到同一个块中。name server有主和备。chunk server或叫data

2016-03-04 15:57:12 1149

原创 生产系统安装Greenplum实例--多节点多网段模式

先说一点题外话,为什么要在这里写博客,为了得到大家的关注、认可,或是交流,其实这些目前都还没有达到,博客换了很多地方,从之前的杂言乱语,情绪抒发,到现在的记录点滴,其实这一切如果说当初有哗众取宠之意,那现在过往许久,只是记录自己生命中这个时段的点滴而已,其实汇总成文字的过程就是自己提炼总结的过程,在写的过程中你会发现你之前的很多碎片的东西可以串起来,就当是对自己的犒赏,写给自己,至于过客或喜或恶,只

2016-03-04 12:38:51 3293

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除