oracle分区表能够使用hql,sqoop导oracle数据到hive中并动态分区

最新推荐文章于 2024-06-14 14:10:08 发布

weixin_39975486

最新推荐文章于 2024-06-14 14:10:08 发布

阅读量114

点赞数

文章标签： oracle分区表能够使用hql

本文详细介绍了如何在Hive中使用HQL创建静态分区表，并通过Sqoop从Oracle导入数据。同时，讨论了动态分区的概念，包括开启动态分区的配置、创建源数据表以及如何利用动态分区自动导入数据。动态分区提高了数据加载的灵活性，尤其在处理大量分区时更为高效。

摘要由CSDN通过智能技术生成

静态分区:

在hive中创建表可以使用hql脚本：

test.hql

USE TEST;

CREATE TABLE page_view(viewTime INT, userid BIGINT,

page_url STRING, referrer_url STRING,

ip STRING COMMENT 'IP Address of the User')

COMMENT 'This is the page view table'

PARTITIONED BY(dt STRING)

STORED AS SEQUENCEFILE;

注意，分区字段不能与表中的字段重复，不然会执行出错

执行hql脚本:

$ hive -f test.hql

手动添加分区：

hive> ALTER TABLE page_view add PARTITION (dt=2018)

创建好分区后，hive会在HDFS存储中创建相应的路径:

$ hadoop fs -ls /user/hive/warehouse/page_view

drwxr-xr-x - admin supergroup 0 2011-07-29 09:53 /user/hive/warehouse/page_view/dt=2018

或者使用

hive> dfs -ls /user/hive/warehouse/page_view

使用sqoop脚本导入数据：

sqoop_test.sh

#!/bin/sh

sqoop import \

--connect jdbc:oracle:thin:@127.0.0.1:1521:orcl \

--username test \

--password 123456 \

--columns "viewTime,userid,page_url,referrer_url,ip" \

--hive-partition-key "dt" \

--hive-partition-value "2018" \

--query "SELECT viewTime,userid,page_url,referrer_url,ip from page_view WHERE 1=1 and \$CONDITIONS" \

--hive-table test.page_view \

--hive-drop-import-delims \

--target-dir "/data/test/page_view" \

--hive-overwrite \

--null-string '\\N' \

--null-non-string '\\N' \

--hive-import;

在使用sqoop导入数据的时候可以指定分区，但是--hive-partition-key和--hive-partition-value选项只能指定一个参数，可以使用--hcatalog-partition-keys和--hcatalog-partition-values选项指定多个分区字段，用逗号分隔。

动态分区:

手动分区灵活性太低，当分区数较多的时候一个个分区单独去加载数据的话工作量太大，这时候可以考虑动态分区。动态分区是基于hive中的源数据表将数据插入到分区表中，在数据插入的时候会根据分区字段自动将数据归类存入对应的分区路径，而不需要手动指定分区路径。要使用动态分区必须要先开启动态分区:

hive> SET hive.exec.dynamic.partition=true;

hive> SET hive.exec.dynamic.partition.mode=nonstrict;

hive> SET hive.exec.max.dynamic.partitions.pernode=1000;

然后创建一张没有分区字段的源数据表(与分区字段对应的字段放后面，与分区表的保持一致):

USE TEST;

CREATE TABLE original_page_view(viewTime INT, userid BIGINT,

page_url STRING, referrer_url STRING,

ip STRING COMMENT 'IP Address of the User',

dt STRING COMMENT 'view date')

COMMENT 'This is the page view table'