Spark 连接mysql 执行数据查询操作实战--多表查询

本文在Ubuntu 14系统上,利用Spark进行大规模数据查询操作,涉及240W条dat_order_item记录和1.4W条dat_order记录的连接。通过表order_id连接两表,并按特定字段分组、排序及求和。实验对比了使用sqlContext.sql与DataFrame的join方法执行相同查询的性能,首次执行时sqlContext.sql耗时较长,但后续两者差距不大。
摘要由CSDN通过智能技术生成
系统环境:本地虚拟机(Ubuntu 14 6G内存,2核CPU)
数据量:dat_order_item 240W记录,dat_order 1.4W记录

操作:(1)dat_order_item 和 dat_order 通过表order_id进行连接
          (2)对dat_order_item表按item_code,item_type , item_insu_type三个字段分组
          (3)查询结果按照dat_order_item表item_type 排序
          (4)sum dat_order_item表中的amount字段
注:mysql数据库中执行该操作耗时为91.56秒
Scala代码如下:
//以jdbc方式连接mysql
val url="jdbc:mysql://loc
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值