spark 多线程执行 java_使用Scala和Spark在单独的Hive分区上并行运行任务,以加快加载Hive并将结果写入Hive或Parquet...

编辑请参阅本文底部的更新编辑

我已经使用Scala和现在的Pyspark来完成相同的任务,但是我遇到了将数据帧非常缓慢地保存到镶木地板或csv,或者将数据帧转换为列表或数组类型数据结构的问题 . 下面是相关的python / pyspark代码和信息:

#Table is a List of Rows from small Hive table I loaded using

#query = "SELECT * FROM Table"

#Table = sqlContext.sql(query).collect()

for i in range(len(Table)):

rows = sqlContext.sql(qry)

val1 = Table[i][0]

val2 = Table[i][1]

count = Table[i][2]

x = 100 - count

#hivetemp is a table that I copied from Hive to my hfs using:

#create external table IF NOT EXISTS hive temp LIKE hivetableIwant2copy LOCATION "/user/name/hiveBackup";

#INSERT OVERWRITE TABLE hivetemp SELECT * FROM hivetableIwant2copy;

query = "SELECT * FROM hivetemp WHERE col1<>\""+val1+"\" AND col2 ==\""+val2+"\

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值