Greenplum 5数据加载最佳实践之Kettle

获得技术资料内容,请访问Greenplum中文社区网站

 

Greenplum 作为分布式大数据计算平台,除了可以高速并行执行分析查询,还以高速的数据加载著称。Greenplum 用户麦煜遥将在本文详细介绍如何使用开源的ETL工具kettle和gpload实现向Greenplum 高速加载数据。

近期,因工作需要,需要通过kettle往Greenplum数据库导入数据,但发现"表输出"的组件非常慢,500条/秒。后来,研究Greenplum批量加载功能,最后发现能达12000条/秒

 

6ae4eaea-75c6-435e-bdde-cadf06de5a91.jpg

 

19b83259-155f-4ef9-a97c-b5fe5cbc8499.png

原理

 

开始,我以为要在Greenplum 数据库server开 gpfdist服务,然后在服务器端建外部表。

后来,发现是在kettle本机装Greenplum loads的服务端,在本机开 gpfdist服务,在本机运行Greenplum外部表,数据保存在data file中,外部表的定义在control file中。data file和control file可以设定在运行程序后,保留或自动删除。

以下是集群的情况: 

 

becc0479-fedb-45e8-bf31-4e07bb52a1dd.jpg

运行Greenplum loads,依赖很多软件(这就是开源,一些人开发出开源工具,其他人借助这些工具,又开发出很酷的功能,只是当我们使用很酷的功能时,要到各处下载依赖工具)。

实现过程

 

一、Windows下kettle使用gpload加载数据到Greenplum

 

1.下载软件

(1)下载Greenplum-loaders-5.0.0-WinXP-x86_32.msi

先查查Greenplum的gpload是什么版本,以免兼容问题,我用的是5.0.0版本。

* 要下载,先注册。填用户名、邮箱,然后用邮箱激活。

https://network.pivotal.io/products/pivotal-gpdb>/releases/6929/file_groups/691

   

45f71d05-5ad4-48b6-8ba6-feeab6f8f093.jpg

 

bbca954c-0bb4-42c7-94e2-a61ac15d5764.jpg


* 官方网站提示:Greenplum loader要求安装 Python 2.5.4 (32-bit version),因为里面的加载程序  (gpload.py) 是用python写的,版本是2.5。

 

f413f40a-6a48-43c6-96a3-3d81107972aa.jpg

 

(2)下载python-2.5.4.msi

 

https://www.python.org/downloads/windows/

 

9ef0e2d9-72d6-4d7f-a9a0-c8a0e0839c71.jpg

 

我的电脑是win7 64位,但是装这个32位的python也可以运行,既然可以运行就不考究了。

 

(3)下载PyYAML-3.10.win32-py2.5.exe

 

https://pypi.org/project/PyYAML/3.10/>files

 

9afcd189-994a-43dd-8ffc-da7aad6e1a14.jpg

 

YAML 是专门用来写配置文件的语言,非常简洁和强大,远比 JSON 格式方便。我们要下载python语言中的PyYAML安装包。


(4)下载PyGreSQL-4.1.1.win-amd64-py2.5.msi


(5)下载PyGreSQL-4.1.1.win-amd64-py2.5.exe

http://pygresql.org/files/

Python使用PyGreSQL操作PostgreSQL数据库教程,Greenplum的内核PostgreSQL。两个文件一起下载,先装.msi文件,再装.exe文件。

c5826228-7474-4100-8765-ee6db872de51.jpg

 

add52d6c-6a9d-4f89-bba6-9a857c90a967.jpg


2.安装软件 (1)按图中顺序安装

bc857c4e-99d4-4a09-a402-057ce0a106ec.jpg


有一点切记:安装python和PyGreSQL...msi时,选择使用用户,要选”this user only”,否则安装PyGreSQL...exe将出现注册表中没有python。


(2)配置环境变量
PYTHON_HOME是我自己配的,好像没用。但安装后 GPHOME_LOADERS 和 PYTHONPATH 会自动生成,它是用Greenplum里面自带的python运行。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据描述 涉及内容包括但不限于:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报告、自然语言生成、NLU太难了系列、自动对联数据及机器人、用户名黑名单列表、罪名法务名词及分类模型、微信公众号语料、cs224n深度学习自然语言处理课程、中文手写汉字识别、中文自然语言处理 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括常用歇后语、成语、词语和汉字)、文档图谱自动生成、SpaCy 中文模型、Common Voice语音识别数据集新版、神经网络关系抽取、基于bert的命名实体识别、关键词(Keyphrase)抽取包pke、基于医疗领域知识图谱的问答系统、基于依存句法与语义角色标注的事件三元组抽取、依存句法分析4万句高质量标注数据、cnocr:用来做中文OCR的Python3包、中文人物关系知识图谱项目、中文nlp竞赛项目及代码汇总、中文字符数据、speech-aligner: 从“人声语音”及其“语言文本”产生音素级别时间对齐标注的工具、AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)、word2word:(Python)方便易用的多语言词-词对集:62种语言/3,564个多语言对、语音识别语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库、构建医疗实体识别的模型(包含词典和语料标注)、单文档非监督的关键词抽取、Kashgari中使用gpt-2语言模型、开源的金融投资数据提取工具、文本自动摘要库TextTeaser: 仅支持英文、人民日报语料处理工具集、一些关于自然语言的基本模型、基于14W歌曲知识库的问答尝试–功能包括歌词接龙and已知歌词找歌曲以及歌曲歌手歌词三角关系的问答、基于Siamese bilstm模型的相似句子判定模型并提供训练数据集和测试数据集、用Transformer编解码模型实现的根据Hacker News文章标题自动生成评论、用BERT进行序列标记和文本分类的模板代码、LitBank:NLP数据集——支持自然语言处理和计算人文学科任务的100部带标记英文小说语料、百度开源的基准信息抽取系统、虚假新闻数据集、Facebook: LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口、CommonsenseQA:面向常识的英文QA挑战、中文知识图谱资料、数据及工具、各大公司内部里大牛分享的技术文档 PDF 或者 PPT、自然语言生成SQL语句(英文)、中文NLP数据增强(EDA)工具、英文NLP数据增强工具 、基于医药知识图谱的智能问答系统、京东商品知识图谱、基于mongodb存储的军事领域知识图谱问答项目、基于远监督的中文关系抽取、语音情感分析、中文ULMFiT-情感分析-文本分类-语料及模型、一个拍照做题程序、世界各国大规模人名库、一个利用有趣中文语料库 qingyun 训练出来的中文聊天机器人、中文聊天机器人seqGAN、省市区镇行政区划数据带拼音标注、教育行业新闻语料库包含自动文摘功能、开放了对话机器人-知识图谱-语义理解-自然语言处理工具及数据、中文知识图谱:基于百度百科中文页面-抽取三元组信息-构建中文知识图谱、masr: 中文语音识别-提供预训练模型-高识别率、Python音频数据增广库、中文全词覆盖BERT及两份阅读理解数据、ConvLab:开源多域端到端对话系统平台、中文自然语言处理数据集、基于最新版本rasa搭建的对话系统、基于

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值