数据仓库
文章平均质量分 60
主要包含gp和vertica
abcdggggggg
喜欢的可以点赞收藏~~
展开
-
Hive MR和Tez 启用Local模式
1.说明 启动local模式,就是让hive的任务不运行在yarn上面。直接当前的服务器执行2.优点当我们对Hive的源码进行Debug,且代码需要Debug到每个task内部时,如果任务是执行在yarn模式的话,那么是无法打断点的,需要进入local模式才能打断点3.MR当引擎为MR时,需要修改以下参数,可以修改配置文件hive-site.xml,也可以通过set来生效3.1 hive-site.xml<property> <name>h...原创 2022-04-19 20:32:05 · 2594 阅读 · 0 评论 -
Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验
Hive on Tez的引擎调优 基于Map数和Reduce数的调优原创 2022-03-25 21:06:21 · 9708 阅读 · 0 评论 -
Greenplum 分布键 distribute hash分布和随机分布
Greenplum是分布式系统,创建表时需要指定分布键,目的是为了数据能够平均分布到各个段,所以选择分布键十分重要,选择错了会导致数据不一致。分布方式: Hash分布:按分布键对数据列进行hash取模存放到对应的segment。 随机分布:数据随机分布在数据库,每次查询都会查询所有的segment。 1.分布策略(1)hash分布 Greenplum默认使用hash分布策略。该策略可选一个或者多个列作为分布键(distribution key,简称DK)。分布键做...原创 2021-04-18 14:46:28 · 4384 阅读 · 0 评论 -
Greenplum(二) 常用参数解释和推荐配置
1.shared_buffers 数据距离CPU越近效率越高,而离CPU由近到远的主要设备有寄存器、CPU cache、RAM、Disk Drives等。CPU的寄存器和cache是没办法直接优化的,为了避免磁盘访问,只能尽可能将更多有用信息存放在RAM中。Greenplum数据库的RAM主要用于存放如下信息。 执行程序 程序数据和堆栈 postgreSQL shared buffer cache kernel disk buffer cache ker..原创 2020-05-19 19:39:48 · 1429 阅读 · 0 评论 -
Greenplum(一) 基本特性 Master Segment
参考:https://blog.csdn.net/weixin_33754913/article/details/858300101.介绍 Greenplum的高性能得益于其良好的体系结构。Greenplum的架构采用了MPP(大规模并行处理)。Greenplum是一种基于PostgreSQL的分布式数据库,其采用的Shared-Nothing架构(MPP),主机、操作系统、内存、存储都是自我控制的,不存在共享。2.基本特性 GPDB既支持行存,也支持列存。还为不需更...原创 2020-05-18 09:31:42 · 2331 阅读 · 0 评论 -
Greenplum 自定义参数配置 内存参数 内核参数 常用日志参数
1.物理机配置 操作系统:CentOS 7.5 内存: 256GB CPU核数: 56核2.GP集群192.168.121.244 Master,Segment;8个primary和8个mirror192.168.121.244 Segment;8个primary和8个mirror192.168.121.244 Segment;8个primary和8个mirror3.sysctl.confkernel.shmmax = 1374389534...原创 2020-05-15 20:13:41 · 1342 阅读 · 0 评论 -
Greenplum GPText(一) 全文检索 安装部署
1.GPText介绍 GPText通过Solr索和 MADlib分析库加入Greenplum数据库大规模并行处理数据库服务器,以提供大规模分析处理和业务决策支持。GPText包括全文检索以及对全文分析的支持。2.GPText功能 GPText提供对Apache Solr索引和搜索的数据库内访问 使用数据库数据或外部文档构建索引,并使用GPText API搜索 用于国际文本和社交媒体文本的自定义标记生成器 通用查询处理器,它接受来自受支持的Solr查询处理器..原创 2020-07-09 19:29:00 · 964 阅读 · 0 评论 -
Greenplum 体系架构 Master Segment
1.Greenplum 体系架构Greenplum架构图如下:Greenplum 由三部分组成:Mastert、Segment、Interconnect。(1)Master 访问系统的入口 数据库侦听进程 (postgres) 处理所有用户连接 建立查询计划explain 协调工作处理过程 管理工具 系统目录表和元数据(数据字典) 不存放任何用户数据,所以性能瓶颈不在Master节点上 (2)Segment.原创 2020-07-09 19:10:59 · 1413 阅读 · 4 评论 -
Greenplum 6.0 新特性介绍 pg的内核升级
1.特性总结Greenplum 6在升级PostgreSQL内核至9.4版本的同时,增加了大量新特性,包括基于WAL日志的mirror同步、分布式死锁检测、复制表、在线扩容、磁盘限额、自动master切换、zStandard压缩、GP-GP集群间高效查询等。pg的内核版本从8.3升级到了9.4关键更新: 复制表 集群在线扩容 跨集群查询 磁盘配额管理 Zstd压缩 更多的K8S支持 OLTP操作性能提高 轻量级锁原创 2020-07-09 18:53:26 · 809 阅读 · 0 评论 -
Greenplum 执行计划中的术语 摘自书籍
摘自书籍:Greenplum企业应用实战 完整版[何勇,陈晓峰著]1.数据扫描方式 Seq Scan:顺序扫描 顺序扫描将一个数据文件从头到尾读取一次,这种方式非常符合磁盘的读写特性,顺序读写,吞吐很高。对于分析性的语言,顺序扫描基本上是对全表的所有数据进行分析计算,在是数据仓库中,大都为这种扫描,结合压缩表使用,可以减少磁盘IO的损耗。 Index Scan:索引扫描 索引扫描是通过索引来定位数据的,一般对数据进行特定的筛选,筛选后的数据量比较小(对于整个表而言)。...原创 2020-07-09 17:49:03 · 659 阅读 · 0 评论 -
Greenplum Greenplum Command Center GPCC(二)GP Web监控工具 卸载
(1)登录Standby Master节点,停止CommandCenter Console 服务gpcc stop(2)登录GP数据库所有节点(master和segment),删除GP监控安装的目录,并且/home/gpdmin/.bashrc环境变量删除先删除软链接,再删除实际GP实际安装目录(Greenplum DB所有节点都执行)rm -rf /usr/local/greenplum-cc-web-4.5.1ssh 192.168.14.46 "rm -rf /usr/.原创 2020-07-09 17:37:07 · 625 阅读 · 0 评论 -
Greenplum Greenplum Command Center GPCC (一)GP Web监控工具 安装 部署
1.定义 Pivotal Greenplum Command Center是Pivotal Greenplum数据库大数据平台的管理工具。2.功能 Greenplum Command Center监控系统性能指标,分析集群运行状况,并使数据库管理员能够在Greenplum数据库环境中执行管理任务。Greenplum Command Center提供了一个浏览器本地HTML5图形控制台,用于查看Greenplum数据库系统指标和执行某些数据库管理任务。3.创建gpperfm...原创 2020-07-09 17:04:24 · 1270 阅读 · 5 评论 -
Vertica 基本架构介绍 常用参数 常用SQL语句(非常有用~~)(一)
1.Vertica架构Vertica是一款基于列存储的MPP(大规模并行处理)架构的数据库,它可以支持存放PB级别的结构化数据。(1)MPP架构 该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。 在这种结构中,每一个处理节点就是一个小型的数据库系统,多个节点一起构成整个的分布式的并行数据库系统。由于每个处理器使用自己的资源处理...原创 2020-07-02 20:34:33 · 3559 阅读 · 0 评论 -
Vertica 自增序列使用 IDENTITY SEQUENCE
参考:https://www.cnblogs.com/harrychinese/p/vertica_id_column.html1.三种方法 AUTO_INCREMENT IDENTITY SEQUENCE 2.简单对比 AUTO_INCREMENT 或 IDENTITY 字段都是直接在表定义时设定的, SEQUENCE是一个独立的对象 AUTO_INCREMENT 可以设定的参数最少, 不能设定起始值和增量 IDENTITY 可设定的参数稍.原创 2020-07-02 18:21:52 · 1987 阅读 · 0 评论 -
Vertica 数据导入导出 Copy命令
1.dat格式dat格式:dat有两种情况,一是VCD视频格式可以用大多数播放软件来播放,二是数据库文件,一般无法直接打开,需要放在相应的软件目录中才起作用。vsql工具使用copy或者insert导入数据之后 需要commit提交(1)从数据库导出# 文件会生成在当前目录下su - dbadminvsql -d viid -w dbadmin -At -F'|' -c "select * from viid_facesnap.facesnapstructured_a050000原创 2020-07-02 18:14:26 · 2916 阅读 · 1 评论 -
Vertica ros和wos介绍
1.单节点的数据存储 vertica数据存储分为两部分,一是读优存储(read-optimized store,ROS),另一个是写优存储(write-optimized store,WOS),每次更新和插入的数据临时放在WOS部分,WOS达到最大容量后,vertica将数据加载到ROS。SQL查询会访问ROS部分,并且ROS存放已经经过压缩和排序的数据,这样就做到了读写并发两不误,通过tuple mover进程定期将WOS的数据压缩排序后拷贝到ROS区域。 ros总共有1024个sql。...原创 2020-07-02 18:10:13 · 1105 阅读 · 0 评论 -
Greenplum 主备节点(master和standby)手动切换 步骤详细
1.准备本次针对GP6.x版本之前主备节点:master:node01standbymaster:node02查看集群备用节点状态:gpstate -f20190104:14:34:34:261113 gpstate:node01:gpadmin-[INFO]:-Starting gpstate with args: -f20190104:14:34:34:261113 gpstate:node01:gpadmin-[INFO]:-local Greenplum Ve.原创 2020-05-19 19:38:10 · 3514 阅读 · 2 评论