hive sql 报错后继续执行_使用pyspark执行hive sql

文章目录

配置环境

环境配置这里就不再多讲,只研究执行效率的对比

spark

hadoop

执行模式

假设一个查询host出数量的sql是这样:

select host,count(distinct c.mobile) as mobile_num from xml.my_goods d

right join ( select b.xmsec as mobile from(

select mobile_id from xll.xf_shenzhen where dt = '2018-08-31') a

left join zww.nami b on a.mobile_id = b.mobile_id

where b.money is not null ) c on upper(d.mobile) = upper(c.mobile)

where dt >= '20180827' and c.mobile is not null

group by host

hive模式

直接把上面的sql放到hue的hive工作台中执行即可

pyspark模式

共三个文件:

run.sh:执行文件,内容是一个执行py脚本的命令

spark2-submit --master local[*] spark_test.py

spark_test.py:pyspark脚本,作用是执行sql,并把结果保存到hive上

import datetime

import sql_

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值