sqoop导数据的四种策略

一 全量表

全量同步策略:导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。
适用于表的数据量不大,并且每天都会有新数据插入,也会有旧数据的修改的场景。

二 增量表

增量同步策略:每日增量,就是每天存储一份增量数据,作为一个分区。
适用于标的数据量大,并且每天只会有数据插入的场景。

三 新增及变化表

新增及变化策略:每日新增及变化,就是存储创建时间和操作时间都是今天的数据。
使用场景为,表的数据量大,既会有新增,又会有变化。

四 特殊表

特殊策略:某些特殊的维度表,可以不必遵守上述同步策略。
1.客观的世界维度
没变化的客观世界的维度(比如性别,地区,民族,政治成分,鞋子尺码)可以只存一分固定值。
2.日期维度
日期维度可以一次性导入一年或若干年的数据。
3.地区维度
省份表,地区表

具体什么时候是用什么策略自己对应
重点关注:
要导的表内的时间字段,如果说没有时间,则考虑全量或者是特殊策略。如果有时间,create_time(这个数据的记录时间),如果只有这个时间,是一个增量,如果除了这个时间,还有其他时间,action_time/update_time······(修改时间),可以采用新增与变化的策略

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Sqoop是一个用于在Hadoop生态系统中传输数据的工具,可以将数据从关系型数据导入到Hadoop中,也可以将数据从Hadoop出到关系型数据库中。但是,Sqoop并不支持直接将Hive中的复杂数据类型(如ARRAY、MAP、STRUCT等)出到MySQL中。为了实现这个功能,需要进行一些额外的处理。 一种解决方案是使用Hive的内置函数将复杂数据类型转换为字符串,然后将其出到MySQL中。具体步骤如下: 1. 在Hive中创建一个临表,将需要出的数据从源表中选择出来。 ``` CREATE TABLE temp_table AS SELECT col1, col2, CAST(col3 AS STRING) AS col3_str FROM source_table; ``` 2. 使用Sqoop将临表中的数据出到MySQL中。 ``` sqoop export --connect jdbc:mysql://mysql_host:3306/mysql_db --username mysql_user --password mysql_password --table mysql_table --export-dir /user/hive/warehouse/temp_table --input-fields-terminated-by '\001'; ``` 其中,`--input-fields-terminated-by`参数指定输入数据的分隔符,这里使用了Hive默认的分隔符'\001'。 3. 在MySQL中创建目标表,并将出的数据加载到目标表中。 ``` CREATE TABLE target_table (col1 INT, col2 STRING, col3_str STRING); LOAD DATA LOCAL INFILE '/path/to/exported/file' INTO TABLE target_table FIELDS TERMINATED BY '\001'; ``` 4. 将MySQL中的col3_str列转换回Hive中的复杂数据类型。 ``` ALTER TABLE target_table ADD col3 ARRAY<STRING>; UPDATE target_table SET col3 = split(col3_str, ','); ALTER TABLE target_table DROP col3_str; ``` 这样,就可以将Hive中的复杂数据类型出到MySQL中了。需要注意的是,这种方法只适用于较小的数据集,对于大规模数据集,可能需要使用其他方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值