Hive存储过程HQL/SQL(二)– 在Hive存储过程中读写MySQL表

关键字:Hive存储过程、PL/HQL、HQL/SQL、MySQL

通过PL/HQL可以在一个脚本中同时访问多个数据库系统。在实际业务场景中,经常会有需要将Hive和RDBMS中的数据结合分析,比如:

  • 往RDBMS中写入Hive分析的审计信息;
  • 从RDBMS中获取一些维表的数据,和Hive表进行关联;
  • 从RDBMS中读取一些配置数据;
  • 往RDBMS中保存Hive的分析结果;

在PL/HQL中提供了这个功能,它允许在一个PL/HQL脚本中访问多个数据库系统。下面以一个简单需求为例:

在PL/HQL脚本中执行Hive分析任务,并将本次执行的审计信息记录到MySQL,其中,审计信息包括Hive分析任务的开始时间,结束时间和最终完成状态。

MySQL中建立审计信息表

 
 
  1. CREATE TABLE hive_task_log (
  2. seq INT PRIMARY KEY auto_increment,
  3. start_time VARCHAR(20),
  4. end_time VARCHAR(20),
  5. return_code INT
  6. );
  7.  

配置hplsql-site.xml

在hplsql-site.xml中的主要配置如下:

<property>

<name>hplsql.conn.default</name>

<value>hive2conn</value>

<description>The default connection profile</description>

</property>

<property>

<name>hplsql.conn.hive2conn</name>

<value>org.apache.hive.jdbc.HiveDriver;jdbc:hive2://172.16.212.17:10000/liuxiaowen;liuxiaowen;</value>

<description>HiveServer2 JDBC connection</description>

</property>

<property>

<name>hplsql.conn.mysql.conn</name>

<value>com.mysql.jdbc.Driver;jdbc:mysql://172.16.212.102:3306/test;test;test1234</value>

<description>MySQL connection</description>

</property>

 

其中,

参数hplsql.conn.default表示默认的连接器为hive2conn;

参数hplsql.conn.hive2conn表示hive2conn的具体链接串;

参数hplsql.conn.mysql.conn表示mysql的具体链接串。

 

特别注意:原始的hplsql-site.xml给出的是hplsql.conn.mysqlconn,经过测试有bug,这里的链接名称中必须包含”mysql.”,才会被正确解析成MYSQL的链接类型,否则,全被解析成HIVE,其他非Hive的数据库链接名称也是如此。

开发PL/HQL脚本

PL/HQL脚本1.sql中的内容如下:

 
 
  1. MAP OBJECT log TO test.hive_task_log AT mysql.conn;
  2.  
  3. DECLARE
  4. start_time VARCHAR(20);
  5. end_time VARCHAR(20);
  6. return_code INT;
  7. BEGIN
  8. start_time = SYSDATE || '';
  9. SELECT COUNT(1) FROM liuxiaowen.lxw1234;
  10. return_code = SQLCODE;
  11. end_time = SYSDATE || '';
  12. INSERT INTO log (`start_time`,`end_time`,`return_code`)
  13. VALUES(start_time,end_time,return_code);
  14. EXCEPTION WHEN OTHERS THEN
  15. return_code = SQLCODE;
  16. end_time = SYSDATE || '';
  17. INSERT INTO log (`start_time`,`end_time`,`return_code`)
  18. VALUES(start_time,end_time,return_code);
  19. DBMS_OUTPUT.PUT_LINE('SQL execute error,return code : ' || return_code);
  20. END

其中:

MAP OBJECT log TO test.hive_task_log AT mysql.conn;

这句是使用mysql.conn链接器,将test.hive_task_log表映射到log对象上,后面直接使用log即可。

SELECT COUNT(1) FROM liuxiaowen.lxw1234;

这句是执行Hive的分析任务。

return_code = SQLCODE;

这句是获取Hive分析任务的结果状态码,0表示正常,非0表示错误;

另外,在Hive分析任务开始前和结束后,使用SYSDATE获取当前时间。

使用PL/HQL的异常处理,当执行有问题时候,同样需要往审计表中记录开始和结束时间,以及返回的错误码。

执行PL/HQL并查看结果

在命令行执行hplsql -f 1.sql

hplsql

从执行的打印信息中可以看出,本次执行有两个数据库链接,第一个是链接到Hive,第二个是链接到MySQL。

在MySQL中查看表test.hive_task_log的数据:

hplsql

修改1.sql文件,使Hive的分析任务出错:

SELECT COUNT(1) FROM liuxiaowen.lxw1234.com;

再执行一遍:

hplsql

已经报错了,查看MySQL中的审计信息:

hplsql

 

遗憾的是,目前还不支持直接将Hive中的表和MySQL中的表关联起来查询,只能通过类似游标的方式去实现关联。

更多关于Hive中使用存储过程的文章,阅读《Hive存储过程系列文章》。

您可以关注 lxw的大数据田地 ,或者 加入邮件列表 ,随时接收博客更新的通知邮件。

 

 

 

如果觉得本博客对您有帮助,请 赞助作者 。

转载请注明:lxw的大数据田地 » Hive存储过程HQL/SQL(二)– 在Hive存储过程中读写MySQL表

喜欢 (4)
分享 (0)
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值