数据库内核和应用
文章平均质量分 65
db kernel, db op
huxuanlai
大数据架构师,算法建模工程师,河南研发和信用提升志愿者。
展开
-
kettle支持全表同步、插入同步、更新同步的配置
源表在mysql:create table tt(id int, name varchar(50), primary key(id));目标表pg:create table tt(id int, name varchar(50), primary key(id));kettle配置信息: “用来查询的关键字”: 填入primary key字段,其他字段不填 ...原创 2020-01-16 18:23:13 · 1019 阅读 · 0 评论 -
mysql/hive/postgresql/impala用sql进行分组中字符串聚合拼接的写法
mysql: group_concat(distinct switch order by seq_no separator '->')),支持分组内order byhive: concat_ws('->', collect_list(switch))postgresql: string_agg(distinct switch, '->'order by seq_no)imp...原创 2019-11-07 12:01:33 · 1658 阅读 · 0 评论 -
建立Apache Geode源码阅读环境
#config envadd-apt-repository ppa:cwchien/gradleapt-get updateapt-cache search gradleapt-get install gradle-3.3yum install java-1.8.0-openjdk-develuseradd geodepasswd geode#compile原创 2017-03-02 15:42:02 · 599 阅读 · 0 评论 -
Centos7环境Greenplum5.17源码编译-开启gporca优化器功能
centos 7//安装gp依赖库yum groupinstall "Development tools" -yyum install zlib-devel openssl-devel bzip2-devel curl-devel libxml2 libxml2-devel readline-devel python-devel perl perl-ExtUtils-Embed ntp p...原创 2019-03-13 16:42:59 · 1177 阅读 · 0 评论 -
Vertica服务器集群和客户端部署/Vertica TPC- DS性能和并发测试/Vertica与Hive连通性测试
/*************************服务器集群部署************************///1. 部署准备//cpu/mem/disk/net/filesysystem推荐设置见https://www.vertica.com/kb/GenericHWGuide/Content/Hardware/GenericHWGuide.htm//交换分区查看,交换分区至少2...原创 2019-04-13 12:12:30 · 967 阅读 · 0 评论 -
Greenplum带优化器的源码编译、离线打包,部署和TPC-DS性能和并发测试
************************编译************************centos 7, raid5, 文件系统xfs,xfs挂载参数:defaults,allocsize=16m,inode64,noatime//安装gp依赖库yum install -y \ apr-devel \ byacc \ bison \ bzip2...原创 2019-04-13 12:18:35 · 1061 阅读 · 0 评论 -
Clickhouse的3节点/3分片/2副本/环形复制拓扑/分布式表/复制表/离线集群/部署
///////////////////////离线安装/////////////////////ubuntu 16:在有网的服务器上下载clickhouse安装包:https://repo.yandex.ru/clickhouse/deb/stable/main/clickhouse-client_19.4.3.11_all.debclickhouse-common-static_19....原创 2019-04-18 17:38:31 · 9489 阅读 · 3 评论 -
Vertica和Hive表互操作方法比较(hdfs bulk load和shell pipe方法)
目录1. 部署方式选择2. Vertica和Hive互操作方法选择2.1 方法1和性能:hdfs bulk load2.2 方法2和性能:shell pipe2.3 2种方法的比较3 结论1. 部署方式选择Vertica和Hadoop是不相容的集群,磁盘部署方式(vertica是raid, hadoop是jobd)是不一样的,需要分离部署。参考:https://...原创 2019-05-07 13:44:24 · 1549 阅读 · 0 评论 -
Vertica 9.2和Clickhouse 19.4单表查询性能简单对比
测试环境:3节点/Centos6.5/1 * 250G 7.2KRPM磁盘/16线程/64GB内存/1Gb网络测例: 查询 查询说明 Clickhouse(首次/多次平均) Vertica(首次/多次平均) select count(1) from XXX where L_DATE = '...原创 2019-05-07 13:49:05 · 1664 阅读 · 0 评论 -
Spark和Hive的ANSI SQL支持情况
Spark 2.0.x支持的SQL:-----------------Spark SQL2003支持情况:社区目前主要是支持缺少的大功能subquery,细节功能主要是IBM的人在系统地添加(https://issues.apache.org/jira/secure/Dashboard.jspa?selectPageId=12326761)。具体缺少的2003细节功能可查看原创 2017-03-09 17:04:32 · 2114 阅读 · 0 评论 -
Greenplum和数据库内核概念
原创 2017-03-09 12:56:13 · 936 阅读 · 0 评论 -
Hive源码调试步骤
1. 在centos6.5中下载eclipse:http://mirror.hust.edu.cn/eclipse//technology/epp/downloads/release/luna/SR2/eclipse-java-luna-SR2-linux-gtk-x86_64.tar.gz2. 把hive mvn工程变为java工程mkdir原创 2017-03-02 13:54:28 · 1941 阅读 · 0 评论 -
linode上搭建有standby+mirror功能的Greenplum集群并用TPC-DS基准测试
#1. 想要什么样的集群#2. 如何为集群申请机器#3. 在mdw节点,root用户下,初始环境建立#4. 在mdw节点,root用户下,设置系统环境#5. 在mdw节点,gpadmin用户下,设置应用变量并启动#6. 登陆启停看状态#7. 安装gpfdist为批量数据导入做准备#8. TPC-DS基准测试#1. 想要什么样的集群无mirro原创 2017-03-02 14:07:13 · 961 阅读 · 1 评论 -
Drill代码分析
Drillbit ZKClusterCoordinator//协调客户端请求 ServiceEngine//包括用户服务,控制服务,数据服务 UserServer//接受和反馈用户请求 UserWorker.submitWork//将用户请求提交原创 2017-03-02 14:32:48 · 617 阅读 · 0 评论 -
Spark SQL模块代码分析(查询语句到逻辑查询计划树的过程)
SQLContext.executeSql SQLContext.parseSql DDLParser//先用DDL解析器解析 SparkSQLParser//用于"create table from select clause"形式的DDL语句中解析"select c原创 2017-03-02 14:35:36 · 1185 阅读 · 0 评论 -
Spark on Yarn资源调度源码解析
在命令行中调用SparkSubmit类启动Spark自定义Jar包执行的时候当前节点调用的有主函数的类名childMainClass分为-----------------standalone: org.apache.spark.deploy.rest.RestSubmissionClientclient:jar包中main函数,默认形式yarn-cluster:org.apache原创 2017-03-02 14:37:04 · 2492 阅读 · 0 评论 -
postgresql安装、TPC-H测试和代码调试
echo "deb http://apt.postgresql.org/pub/repos/apt/ trusty-pgdg main" | sudo tee -a /etc/apt/sources.list.d/pgdg.listwget --quiet -O - https://www.postgresql.org/media/keys/ACCC4CF8.asc | sudo apt-ke原创 2017-03-02 15:25:32 · 1707 阅读 · 0 评论 -
Drill查询拆分过程
Drill代码分析(查询拆分)Drill代码分析(查询拆分) Drill架构 Drill是什么 Drill查询服务总体执行流程 Drill查询引擎执行流程 物理执行计划生成 查询拆分和分布执行 非根查询片段执行流程 Calcit架构 Drill与Calcite交互Drill架构Drill是什么Drill是开源、低延迟、分布式查询系原创 2017-03-02 14:33:43 · 2053 阅读 · 1 评论 -
Drill中Calcite优化器代码分析
什么是优化器Calcite中优化器执行框架优化器创建和特性添加优化器执行过程AbstractConverter触发执行的过程规则匹配过程Drill优化逻辑drill中的逻辑执行计划优化规则drill中的物理执行计划优化规则什么是优化器优化器是对关系节点树做等价变换得到最小代价的执行计划的组件。优化器执行框架涉及的主要概念如下: 优化规则(Re原创 2017-03-02 14:34:49 · 4990 阅读 · 0 评论 -
intel stream-sql功能代码分析
1. 从代码中看已经实现的功能2. 分析上面已实现的功能2.1 功能1实现2.1.1 stream-sql中代码支持2.1.2 hive语法支持2.2 功能2实现2.3 功能3实现1. 从代码中看已经实现的功能功能1:Support create/drop stream by SQL queries功能2:Su原创 2017-03-02 14:31:05 · 487 阅读 · 0 评论 -
建立squall(SQL on Storm)源码阅读环境
#squall源代码管理转为eclipse java工程形式# rootcurl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repoyum install sbt -ycd ~/.sbt/0.13mkd原创 2017-03-02 13:52:07 · 629 阅读 · 0 评论