ETL
文章平均质量分 51
神芷迦蓝寺
神芷迦蓝寺,江楼月美人
展开
-
日增进:记一次PG主从搭建及数据同步性能测试流程
目录背景PG安装主从配置主库配置从库配置验证主从搭建数据同步背景随着金融领域关系型数据库的去ORACLE化,越来越多的客户现场开始采用国内自产云数据库或者开源数据库。国内自产的数据库有OceanBase,达梦,以及我们恒生的LightDB(超好用,极推),他们都有很强大的性能和客户至上的运维,这里便不再多说。我们的产品所用到的开源RDBMS目前以MySQL为主,它的优点是很多的,体积小、速度快、总体拥有成本低、开放源代码等等,这也是客户用的最多产品。但是MySQL有一个.原创 2021-12-10 15:40:15 · 2145 阅读 · 1 评论 -
日增进:kettle如何处理文本数据传输为‘‘而不是null
kettle在传输过程中有时候会遇到字段数据为空,会写入'',但是传输的目标字段里该字段为number或者date类型,这个时候就会报错比如kettle 传输了两个字段,id,name,age,文本字符该字段为空,传入的是'',而不是null,则就会报字段限制错误这个时候我们可以在${KETTLE_HOME}/.kettle/kettle.properties文件里加一句# 自动填补为空KETTLE_EMPTY_STRING_DIFFERS_FROM_NULL=Y那么对于文件里的空字符原创 2021-09-07 16:34:13 · 957 阅读 · 0 评论 -
解决MySQL JDBC数据批量插入慢的问题
MySQL数据库是当前最常用的数据库之一,因此MySQL的ETL相关问题也比较多,这里我们来讨论一下数据批量操作的优化当前数据批量写入或更新几乎使用的都是JDBC的方式,但是JDBC驱动在默认情况下会无视executeBatch()语句,也就是说我们所期望的批量执行,其实都只是单条插入,造成性能很低。这个时候我们需要设置rewriteBatchedStatements参数置为true,驱动就会帮我们批量执行sql在各种开发语言里,添加方式为在jdbc后加入&rewriteBatchedS原创 2021-06-27 22:03:08 · 3043 阅读 · 0 评论 -
kettle的文件名通配规则
kettle是一个很好用的ETL工具,参考datax这里记录一下kettle的文件名通配规则,与我们所熟知的*匹配所有,|是并列等差不多,但也有些许不同,kettle里的wen'j原创 2021-06-16 01:58:47 · 3082 阅读 · 0 评论 -
kafka常见异常问题总结:KeepErrorCode = NoNode for...
主要异常kafka是我们常见的数据订阅中间件系统,但清除累计的日志文件也是件技术活笔者在清除日志的时候,不小心把zookeeper log 目录下version-2里的文件删除了,就引发了一系列惨案:kafka数据报错,无法再产生数据,报错详情:kafka报错:Error Path:/admin Error:KeeperErrorCode = NoNode for /brokersError Path:/admin Error:KeeperErrorCode = NoNode for原创 2021-04-01 10:40:26 · 9583 阅读 · 2 评论 -
实战|python消费rabbitMQ
必须的包为pika,话不多说,上代码#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : CosumerMQ.py@Contact : dtboys507@163.com@License : (C)Copyright 1997-2021, XXXXXXXXXXXXX CO.,LTD.@Modify Time @Author @Version @Desciption------------原创 2021-01-15 17:02:08 · 1474 阅读 · 0 评论 -
canal实战(三)|canal数据消费到kafka
## 本文章改编于阿里开源工具Canal,原版网址https://github.com/alibaba/canalcanal第一辑canal的配置安装与服务启动 canal第二辑canal java客户端canal的原理我们在第一辑里已经介绍,现在我们需要把canal采集到的日志数据消费到kafka,并通过kafka把数据进行进一步入库,上云等消费操作。首先我们把Kafka进行安装配置,涉及到的有zookeeper,kafka,有的服务器还要装java环境等,kafka的安装我之前有讲...原创 2020-11-20 18:40:07 · 2101 阅读 · 0 评论 -
Kafka实战配置操作手册shell版
神芷迦蓝寺,江楼月美人原创 2019-12-25 16:10:57 · 890 阅读 · 0 评论 -
canal实战(二)|canal java客户端
## 本文章改编于阿里开源工具Canal,原版网址https://github.com/alibaba/canal在前面canal搭建并启动后(传送站),我们就可以开始进行第二步canal java客户端建立maven工程,maven工程创建如有不会的童鞋可参考传送站pom.xml依赖添加<dependency> <groupId>com.alibaba.otter</groupId> <artifactId>canal....原创 2020-11-20 17:18:21 · 2036 阅读 · 0 评论 -
canal实战(一)|canal的配置安装与服务启动(含安装包)
## 本文章改编于阿里开源工具Canal,原版网址https://github.com/alibaba/canal当你看到这篇文章时,说明你已经对canal有所理解,其主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。废话不多说,直接上流程1 MySQL1.1 安装网上资源很多,暂不做详细说明,我给自己的博客打个广告吧:https://blog.csdn.net/mochou111/article/details/981747211.2 账号权限...原创 2020-11-19 14:19:29 · 3591 阅读 · 2 评论 -
dataocean平台用继承spark的python脚本来实现抓取es数据到hive
在大数据生态里,ES作为一个极致搜索平台,可依据json格式快速在线查询过滤以及修改数据,由于json数据是半结构化数据,所以从hive数仓数据交换到es很简单,但是从es交换到hive就需要对应字段切分,现在基本上使用的都是scala,java来实现,虽然这些语言是多线程的,也能实现很多功能需求,但同样的开发难度和维护难度也上去了。你需要配置环境,比如连接es的,数据导入hive的,这些常用maven来实现阿里云这些还好,可以在网上下载相关包,但是对于一些定制化的大数据平台,你只能离线配置相关原创 2020-07-07 18:33:15 · 474 阅读 · 0 评论 -
Kettle的ETL简单应用
Kettle是极其方便好用的一个ETL数据传输同步工具在navicat无法定制化传输,在DataX因为不是图像化惨遭小白淘汰,这个时候Kettle就当当当派上用场了1 下载解压下载我这里提供一个9.0版本的,免安装解压即可用链接:https://pan.baidu.com/s/1hld-3pLPSguk2s07KHkxWw提取码:p98h当然大家也可以去官网下载2 使用Kettle解压打开后,可以看到这两个文件,bat后缀名的是在windows下运行,sh后缀名的是在l..原创 2020-05-09 16:56:18 · 404 阅读 · 0 评论 -
获取数据库多个表结构的方法
1 直接方法使用navicat等工具点击表详情,获取其DDL语句即可,单个表是最快速便捷的,多个表的话建议使用下面方法2 写脚本循环以MySQL举例,可以用这个sql代码带出来表结构,其他数据库类似,对于多个表可以写存储过程或者其他语言诸如python,shell,java等写脚本传参给table_name和table_schemaSELECT table_schema ...原创 2020-05-08 13:57:58 · 867 阅读 · 0 评论