ETL数据同步
文章平均质量分 94
数据同步
四月天03
这个作者很懒,什么都没留下…
展开
-
Hive同步数据到ES
第一步:下载需要的jar包,必须的是es-hadoop的包 elasticsearch-hadoop-5.5.1.jar 下载地址:http://download.elastic.co/hadoop/到官网下载与ES一致的版本,比如ES版本是5.5.1,则下载elasticsearch-hadoop-5.5.1.zip第二步:如下是放到hadoop根目录的jars目录下第三步:在hive中添加jar包,ADD JAR hdfs://nmcluster/user/root/test/es_hadoop/原创 2022-07-07 11:18:03 · 1983 阅读 · 0 评论 -
Hive 数据同步ClickHouse
在开发过程中,需要从HDFS中导入数据到clickhouse中。把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。需求:按条件筛选Hive表中的数据同步到ClickHouse中方法一:按照ClickHouse 官方文档提供的方法,在ClickHouse 中创建HDFS引擎表,读取Hive的数据,将读取的数据插入到ClickHouse本地表中。缺点:1.需要在clickhouse中创建两张表2.如果Hadoop集群压力比较大,在读取HDFS数据的时原创 2022-07-07 09:30:01 · 4312 阅读 · 0 评论 -
大数据 同步解决方案 Mysql、Hive、Hbase
1)、基于数据库日志(比如mysql的binlog)的同步 (canal)我们都知道很多数据库都支持了主从自动同步,尤其是mysql,可以支持多主多从的模式。那么我们是不是可以利用这种思想呢,答案当然是肯定的,mysql的主从同步的过程是这样的。A、master将改变记录到二进制日志(binary log)中(这些记录叫做二进制日志事件,binary log events,可以通过show...原创 2019-06-24 14:45:29 · 3161 阅读 · 0 评论 -
spark实现sqoop从oracle导数据到hive
有时候oracle中的数据中会存在换行符(" \n ")然而hive1.1.0中数据换行默认识别的也是\n,最坑的是还不能对它进行修改(目前我没有查出修改的方法,大家要是有办法欢迎在评论区讨论)那我只能对数据进行处理了,以前使用sqoop的时候也有这个问题,所幸sqoop有解决换行符的语句,,,,巴拉巴拉,,,扯远了。其中--jars 是指定连接oracle的驱动,ojdbc7.jar对应的是oracle12版本,--master local /...指定的是运行的python文件。.........原创 2022-08-26 22:29:17 · 2436 阅读 · 0 评论 -
Sqoop优化:数值类型变成null、符 \n 和\r 等特殊符号处理、$CONDITIONS关键字的作用
(建立临时表,通过sqoop导入到临时表,成功之后再把临时表的数据通过事务导入到mysql的业务数据表,Sqoop在导入导出数据时,通过建立临时表可以解决好多问题,所以要学会巧用临时表),使用--staging-table选项,将hdfs中的数据先导入到临时表中,当hdfs中的数据导出成功后,临时表中的数据在一个事务中导出到目标表中(也就是说这个过程要不完全成功,要不完全失败)。但是有时候会碰到很多的表没有添加自增ID或者,整数型的主键,或者 主键分布不均,反而会拖慢整个job的进程。.........原创 2021-10-22 14:17:51 · 5533 阅读 · 0 评论 -
Sqoop--全量/增量、导入/导出
Sqoop支持两种方式的全量数据导入和增量数据导入,同时可以指定数据是否以并发形式导入。下面依次来看:一、MySQL-->hdfs,Hive1、全量数据导入全量数据导入就是一次性将所有需要导入的数据,从关系型数据库一次性地导入到Hadoop中(可以是HDFS、Hive等)。方法1(直接导入):将mysql数据直接导入hive表中#直接导入适用于将单个表中部分数据或所有数......原创 2019-03-05 09:57:57 · 6801 阅读 · 5 评论 -
数据同步问题与解决方案:增量全量、数据漂移,数据更新、
一、增量与全量同步的合并问题:传统数据同步方式为周期全量数据同步,但随着业务发展数据量的急剧增加,周期全量同步的效率太低了。解决方案:每个周期只同步增量数据,然后与上一个同步周期获取的全量数据进行合并,获取最新版本的全量数据。传统数据整合方案:merge 方式(update + insert );当前大数据平台不支持 update 操作,而采用:全外连接(full outer join) + 数据全覆盖重新加载(insert overwrite);(即如日调度,则将当天的增量数据和前一天的全原创 2021-12-15 11:37:18 · 11070 阅读 · 0 评论 -
Databus--低延迟的分布式数据库同步系统(Canal类似)
1、简介Databus是一个低延迟、可靠的、支持事务的、保持一致性的分布式数据库同步系统。它提供可靠的数据捕获、流转和数据处理功能。Databus通过挖掘数据库日志的方式,将数据库变更实时、可靠的从数据库拉取出来,业务可以通过定制化client实时获取变更并进行其他业务逻辑。github地址是:https://github.com/linkedin/databus2、Databus有以下 特点&功能&特性数据源和消费者之间的隔离。 来源独立:Databus支持多种数据来源的..原创 2020-09-26 21:50:37 · 3690 阅读 · 0 评论 -
Data Pipeline
DataPipeline在大数据平台的数据流实践进入大数据时代,实时作业有着越来越重要的地位。本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践。一、企业级数据面临的主要问题和挑战1.数据量不断攀升随着互联网+的蓬勃发展和用户规模的急剧扩张,企业数据量也在飞速增长,数据的量以GB为单位,逐渐的开始以TB/GB/PB/EB,甚至ZB/YB等。同时大数据也在不断深入到金融、零售、制造等行业,发挥着越来越大的作用。2. 数据质量的要求不...原创 2020-10-14 11:13:52 · 5295 阅读 · 0 评论 -
数据同步工具: DataX
1 什么是 DataXDataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题,DataX 将复杂的网状的同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到 DataX,便能跟已有的数据源做到无缝数据同步3 支持的数据源DataX .原创 2021-09-15 22:27:40 · 2051 阅读 · 0 评论 -
数仓:数据同步之道、数据接入技术栈、ETL加载策略
☞ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ] ☞ETL之技术栈 [ 重工具 vs 开发语言 ] ☞ETL加载策略 [ Merge、Delta、拉链 ]ETL工具或类ETL的数据集成同步工具或语言,企业生产中工具也非常之多,主流的etl工具有Sqoop、DataX、Canal、flume、Logstash、kettle、DataStage、Informatica、Talend等,语言有强悍的SQL、Shel...原创 2021-04-16 18:24:03 · 2054 阅读 · 0 评论