关于把hadoop和pg整合成为一个分布式数据库的初步设想

最新推荐文章于 2022-04-13 10:08:00 发布

hitzhang

最新推荐文章于 2022-04-13 10:08:00 发布

阅读量1.9k

点赞数

分类专栏：技术文章标签： hadoop 数据库 sql pig 框架

本文链接：https://blog.csdn.net/hitzhang/article/details/4483921

版权

技术专栏收录该内容

56 篇文章 0 订阅

订阅专栏

把一些想法整理到了ppt里面：

1. 主要是sql如何可以在Map-Reduce框架下面完成分布化：可能需要解析成map-phrase sql和reduce-phrase sql

2. PG如何修改analyse_rewrite和planner接口

3. 如何整合hadoop和pg

都是按照最少开发量的设计，对性能效率没有过多的考虑，目的是尽量的sql兼容，而不是像hive和pig那样搞一套新的sql语法

ppt地址：http://pgfoundry.org/docman/view.php/1000407/13447/hadoop%20and%20pg%20.ppt

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hitzhang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

分布式数据库和Hadoop都不够好，于是我们设计了分布式SQL计算系统

01-27

在有了一些分布式数据库和 Hadoop实际应用经验的基础上，对比两者的优点和不足，加上自己的一些提炼和思考,设计了一套综合两者的系统，利用两者的优点，补充两者的不足。具体的说，使用数据库水平分割的思想实现...

HBase是一个开源的非关系型分布式数据库.docx

最新发布

10-11

HBase是一个开源的非关系型分布式数据库，它基于Hadoop的HDFS构建，提供了高可靠性、高性能、面向列、可伸缩的分布式存储系统。以下是HBase的安装与简单操作指南：一、HBase安装 1. 环境准备操作系统：Linux（如...

参与评论您还未登录，请先登录后发表或查看评论

GP和Hadoop各自的优势在哪？

tao_wei162的博客

03-07

4401

GP是基于关系模式的数据仓库解决方案，在处理结构化数据尤其是关系数据方面有优势，比较适合比如电信、银行这类数据主要以结构化存储的企业或组织；Hadoop是一种分布式开发接口，可以基于hadoop开发处理结构或非结构数据的应用，而且根据调查显示，在互联网领域，95%的数据都是非结构化的，所以比较适合在互联网领域。...

【自建分布式数据库详细指南】（四）设计：CITUS分布式数据仓库OLAP/OLTP的架构选择及PG数据库优化方法策略

wter26的专栏

04-13

1526

关于数据库的整体设计，很少有书籍专门试讲，因为这需要博大精深的理论水平以及阅历丰富的工作经验，但往往这两者不可兼得 1.从用户需求出发要考虑数据库该采用哪种模式总体而言，采用分布式数据库大体会分为三种情形 A类似于OLAP，数据容量大，倾向于统计分析，但短时间内并发事务少 B类似于交易场景，数据容量不一定很大，但并发事务较多 C介于A与B之间这三种模式一般很少单体出现，往往伴随着复杂的需求 2. ...

MapReduce、Hadoop、PostgreSQL、Spark

weixin_30877227的博客

04-01

302

分布式数据库 操作指令如何实现云计算？注：GIS数据集谷歌集群系统主要包括三个部分：分布式文件系统GFS，分布式并行计算模型map/reduce，以及分布式数据库Bigtable hadoop是google的云计算系统的开源实现，GFS对应HDFS，hadoop的map/reduce对应谷歌的map/reduce模型，Hbase对应Bigtable。也就是说，MapRed...

分布式SQL数据库引擎基于Hadoop HDFS

weixin_34368949的博客

05-28

140

2019独角兽企业重金招聘Python工程师标准>>> ...

实时性Hadoop

cloudeagle_bupt的专栏

08-28

1011

Cloudera: Impala EMC Greenplum: Hawq Hortonworks: Hive 以上三者宣称不仅可以把Hadoop转入真正的迭代分析环境，还支持SQL或类SQL的接口，使得数据科学家以外的人员也可以访问Hadoop数据。个人认为，这块目前还很虚，忽悠居多。

选用pg的优点和缺点

isunlight001的专栏

03-18

5762

pg库可以看做是Redis + MySQL + Greenplum/Hadoop + Kafka/Flink + ElasticSearch的组合拳。 pg运维友好。 PostgreSQL的Slogan是“世界上最先进的开源关系型数据库”，但我觉得这口号不够清晰，啥叫‘先进’？而且一看就是在怼MySQL那个“世界上最流行的开源关系型数据库”的口号，有碰瓷之嫌。要我说最能生动体现PG特色的...

Hadoop集群下配置Hive元数据库为PostgreSQL

zhbzhbzhbbaby的博客

06-21

4044

1下载hive 下载地址：http://hive.apache.org/downloads.html 点击上图的Download release now! 如图：点击上图的某个下载地址，我点击的是国内的这个地址：http://mirror.bit.edu.cn/apache/hive/ 如图：点击进入：...

3.hadoop源码分析：datanode的注册分析

colossus——bigdata的专栏

03-02

1063

1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。 2.Pig的数据处理语言是数据流方式的，类似于初中做的数学题。 3.Pig基本数据类型：int、long、float、double、chararry、bytearray 复合数据类型：Map、Tuple、Bag ...

postgresql分布式数据库架构

09-04

postgresql分布式数据库架构文档。Postgres-XC提供同步多主复制、任意数据节点可写等等多种功能。

greenplum + pgsql和Hadoop+hive+hbase

热门推荐

叶子叶来

06-14

1万+

在做的项目用的架构是greenplum+postgresql，第一次接触很陌生，其实我连hadoop+hive+hbase模式还没搞清楚，只能接触最基本的东西，下面是一个帖子的内容： A. Hadoop + Hive 支持新增节点，过程中不需要重启支持jdbc访问hive数据库支持sql的方式获取数据在技术过程中，数据是以批量的方式来执行。如果Hadoop集群中架设了t

MPPDatabase（GreenPlum）和Hadoop

weixin_41227335的博客

07-11

1667

1.MPPDB： 1.基于MPP并行处理架构的数据库 2.Shared-nothing架构，各个节点之间互不干预，但一个节点崩了后就得等待重启才能访问该节点里的数据 3.无master节点的扁平型架构 4.更擅长处理关系型数据 5.适合多维度自助分析、数据仓库、数据集市等。 6.存储的数据价值密度高 2.Hadoop： 1.Had...

基于 PostgreSQL 的集群数据库 CitusDB

pyzheng的专栏

03-25

506

[url]http://www.oschina.net/p/citusdb[/url] CitusDB 是一个基于最新 PostgreSQL 构建的分布式数据库。CitusDB 可对 PostgreSQL 数据库进行伸缩以适合大数据的处理。可在集群中进行自动分片和碎片复制，运行在云端或者混合系统中。数据库的查询可在集群中进行分布式处理，充分利用集群中每个节点的计算能力。CitusDB 可提升 P...

postgresql 分布式数据库

yayafenghua的专栏

02-25

1159

1 分布式事务所用到的两阶段提交协议两阶段提交的过程涉及到协调者和参与者。协调者可以看做成事务的发起者，同时也是事务的一个参与者。对于一个分布式事务来说，一个事务是涉及到多个参与者的。具体的两阶段提交的过程如下：第一阶段：首先，协调者在自身节点的日志中写入一条的日志记录，然后所有参与者发送消息prepare T，询问这些参与者（包括自身），是否能够提交这个事务；参与者在接受到这个p...

分布式专场-数据库读写分离、主从同步--postgresql部分

一名普通码农的菜地

09-05

2895

参考 数据库读写分离，主从同步实现方法 PostgreSQL 10.3数据库主从复制 Mycat（实践篇 - 基于PostgreSQL的水平切分、主从复制、读写分离） PostgreSQL高可用集群方案收集/主从切换/一主多从（待实践）...

融合分布式数据库与Hadoop：分布式SQL计算系统设计

"分布式数据库和Hadoop在处理复杂SQL时存在挑战，因此开发了一种分布式SQL计算系统，结合两者的优势，实现数据的水平分割存储和MapReduce计算模式。系统架构可有无代理节点两种形式，其中客户端或代理节点负责SQL...