![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据同步
数据同步包含全量同步,增量同步,补数,python脚本以及dataX的处理。
Ayub
喜欢学习,喜欢交流分享大数据技术。
展开
-
Sqoop 导入HDFS, Hive
案例1:全量导入hdfs(删除目标文件夹)这是建立job,运行时需要 sqoop job -exec test_item_jobsqoop job --create test_item_job \ --meta-connect jdbc:hsqldb:hsql://192.168.1.86:16000/sqoop \ -- import \ --connect jdbc:oracle:thin:@192.168.1.160:1521:test \ --username test \ --pa原创 2020-05-29 13:51:58 · 410 阅读 · 0 评论 -
sqoop 从Hive导入Mysql
本案例为从Hive中导入至Mysql注意:hive中的字段和mysql的字段一定要一样。字段类型也要一样。sqoop export \ --connect "jdbc:mysql://10.128.18.79:3306/test?useUnicode=true&characterEncoding=utf-8" --username root --password Qhi@2019 \ --table t_customer_give_info \ --columns "c_sls_cde,l原创 2020-05-15 21:55:00 · 306 阅读 · 0 评论 -
Sqoop数据导入到HBase
Hbase具有幂等性,对于多次导入都可以一样数据。不会新增数据。1、oracle全量导入Hbasesqoop import \ --connect jdbc:oracle:thin:@192.168.1.160:1521:test \ --username test \ --password-file /user/admin/sqoop/pwd/dev/test.pwd \ --table TEST.TEST_BASE \ --columns USER_ID,NAME,GROUP_NAME,原创 2020-05-30 13:03:23 · 1666 阅读 · 0 评论 -
dataX同步mysql至hive
mysql同步至hdfs原创 2022-03-10 21:30:21 · 8454 阅读 · 4 评论 -
pyspark.SparkSession查询hive数据写入mysql
# -*- coding: utf-8 -*-# created by say 2021-06-09from pyspark.sql import SparkSessionimport datetimeimport loggingimport pymysqlimport sys, ossys.path.append(os.getcwd())isPrd = TrueMP_DB_CONNECT_INFO = \ {'host': '123456.mysql.aliyun.co.原创 2021-08-21 18:53:37 · 611 阅读 · 0 评论 -
pyspark定时统计hive的数据存入mysql
1 pyspark定时统计hive的数据存入mysql在做指标系统的时候,我们很多时候都需要统计,hive上面的数据,然后存入mysql 便于反复查询. 代码很简单. 还支持补数.2 代码# -*- coding: utf-8 -*-# created by say 2021-04-12from pyhive import hivefrom pyspark.conf import SparkConffrom pyspark.context import SparkContextfrom原创 2021-08-21 18:44:10 · 342 阅读 · 0 评论 -
pyspark将HIVE的统计数据同步至mysql
pyspark将HIVE的统计数据同步至mysql很多时候我们需要hive上的一些数据出库至mysql, 或者由于同步不同不支持序列化的同步至mysql , 使用spark将hive的数据同步或者统计指标存入mysql都是不错的选择代码# -*- coding: utf-8 -*-# created by say 2021-06-09from pyhive import hivefrom pyspark.conf import SparkConffrom pyspark.context原创 2021-07-03 20:38:41 · 507 阅读 · 2 评论 -
python脚本通过dataX增量同步mysql数据至HIVE
#!/usr/bin/env python-- coding: utf-8 --增量同步消息from pyhive import hiveimport os, sys,datetimeisPrd = TruehiveInfo = {‘host’:‘192.168.1.1’,‘port’:10000, ‘user’:‘root’,‘database’:‘sdr_ods’,‘hdfs’:‘hdfs://192.168.1.1:8020’} if(isPrd) else {‘host’:‘192.1原创 2021-06-29 23:36:25 · 1074 阅读 · 0 评论