Spark 连接mysql 执行数据查询操作实战--多表查询

最新推荐文章于 2024-04-30 00:20:59 发布

竹信之佳

最新推荐文章于 2024-04-30 00:20:59 发布

阅读量6.7k

点赞数 1

分类专栏：大数据技术

本文链接：https://blog.csdn.net/linhanyichen/article/details/55210604

版权

本文在Ubuntu 14系统上，利用Spark进行大规模数据查询操作，涉及240W条dat_order_item记录和1.4W条dat_order记录的连接。通过表order_id连接两表，并按特定字段分组、排序及求和。实验对比了使用sqlContext.sql与DataFrame的join方法执行相同查询的性能，首次执行时sqlContext.sql耗时较长，但后续两者差距不大。

摘要由CSDN通过智能技术生成

  系统环境：本地虚拟机(Ubuntu 14 6G内存，2核CPU) 

  数据量：dat_order_item 240W记录，dat_order 1.4W记录 

操作：(1)dat_order_item 和 dat_order 通过表order_id进行连接
          (2)对dat_order_item表按item_code,item_type , item_insu_type三个字段分组
          (3)查询结果按照dat_order_item表item_type 排序
          (4)sum dat_order_item表中的amount字段

注：mysql数据库中执行该操作耗时为91.56秒

Scala代码如下：

//以jdbc方式连接mysql
val url="jdbc:mysql://loc

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

竹信之佳

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MySQL与Spark：数据处理流水线

java专栏

09-01

1821

太棒了！经过这一系列步骤，你现在应该成功地建立了一条从 MySQL 到 Spark 的数据处理流水线。从读取数据、处理数据，到最终写回数据，我们已经完成了整个流程。当然，这只是一个简单的例子，实际上你还可以做更复杂的数据清洗、转换和分析。希望这篇文章对你有所帮助，如果你有任何疑问或想要深入了解某个部分，请随时提问。祝你在数据处理的路上越走越远！

spark mysql多表查询_scala spark2.0 sparksql 连接mysql8.0 操作多表使用 dataframe 及RDD进行数据处理...

weixin_30199703的博客

02-04

552

1、配置文件package configimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}case object conf {private val master = "local[*]"val confs: SparkConf = new SparkConf().set...

1 条评论您还未登录，请先登录后发表或查看评论

在spark SQL中指定多个表

qq_36248805的博客

02-20

1834

1.写一个创建mysql表的工具类Utility.scala /** * 创建mysql的表 * * @param url msyql的url * @param userName mysql用户名 * @param password mysql密码 * @param tables 注册的表名集合 * @param spark...

Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询

坚强的小土豆

11-29

6882

项目实战之Spark-Sql的UDF功能实际运用、Spark-Sql中使用if返回多条件查询结果、Mysql中case-when多条件查询 1、Spark-Sql的UDF功能实际运用通过spark.udf.register("udfName", func) 来进行注册使用：select udfName(name) from people 来直接使用 a) 注册UDF方法 val sqlC...

数据融合演示:Spark平台上实现不同类型的数据库里的表关联查询

happyfreeangel的博客

12-03

1134

下面演示Oracle数据库的表dianpingPOISearchResult 和 Mysql 数据库里的表实现关联查询。 val oracleContext=new org.apache.spark.sql.SQLContext(sc) //Now, you can run a query to Oracle by running a code in the below format. val o...

Spark连接MySQL数据库并读取数据

小白白的博客

11-24

6430

（作者：陈玓玏）打开pyspark，带驱动的那种用命令行启动pyspark时需要加上jdbc的驱动路径： pyspark --driver-class-path D:/Users/chendile/Downloads/mysql-connector-java-3.1.14.jar 在Linux和Windows命令行下都可以用这种方法，但是如果出现以下错误： py4j.protocol.Py4...

基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

03-04

Spark也可以用于执行数据挖掘、特征工程和模型训练，帮助工厂管理层洞察生产效率、产品质量等关键指标。 MySQL作为关系型数据库，通常用于存储实时或结构化的业务数据。在本项目中，它可能用于存储配置信息、元数据...

头歌：Spark案例剖析 - 谷歌网页排名引擎PageRank实战

最新发布

weixin_62399938的博客

04-30

2465

下面我们重点介绍Spark SQL的初始化，数据库的使用，外部数据的导入，从而将网页数据导入数据库中方便之后处理。Spark SQL是Spark自带的数据库，本关你将应用Spark SQL的数据导入工具实现文本数据的导入。总的来说，就是预先给一个网页PR值（此处用PR代替PageRank值），由于PR的现实意义是一个网页被访问的概率，一般为1/N,网页的总数为N,并且所有的网页PR总值为1。如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高。

spark考试练习题含答案.rar

06-22

《Spark大数据处理实战练习题详解》 Spark作为大数据处理领域的重要工具，因其高效、易用的特性备受开发者青睐。为了帮助大家深入理解和掌握Spark的核心功能，我们整理了一系列的Spark考试练习题，涵盖从基础概念到...

大数据实战之路-实时数仓-基于SparkStreaming的流维关联实现

数据包工头的博客

03-23

624

目录以电商的交易订单场景为例业务实现的部分功能功能设计任务提交以电商的交易订单场景为例描述: 一般的交易订单可能会涉及到多个表的，例如交易订单头信息，交易订单行明细，配送订单等等, 下面以订单头信息和订单行明细两个数据流为例，完成双流join的功能。流数据介绍: 交易订单头包含: 订单号, 父订单号, 配送单号, 渠道号, 下单日期, 订单状态, 下单门店, 配送门店, 送货方式, 订单类型, 运费, 订单满减等等交易订单行明细包括: 交易订单行明细ID, 订单号, 订单行

spark连接mysql核心代码 java实现方式

06-22

spark连接mysql核心代码 java实现方式======================================================================

Spark 读取mysql表统计

baifanwudi的专栏

11-17

1856

添加maven依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.6</version> </dependency>读取数据库package com.spa

使用SparkAPI向Mysql写入和查询数据

Mr_Yang888的博客

04-08

724

使用SparkSql向Mysql数据库中写入和查询数据 CREATE TABLE user ( id int(11) NOT NULL AUTO_INCREMENT, username varchar(32) NOT NULL COMMENT ‘用户名称’, birthday date DEFAULT NULL COMMENT ‘生日’, sex char(1) DEFAULT NULL COM...

saprk sql查询mysql的两种方法

ImezZ

02-15

1454

saprk sql查询mysql的两种方法： package com.spark.test import org.apache.spark.sql.SparkSession import org.apache.spark.sql.SaveMode import java.util.Properties import java.util.Map import java.util.HashMap object MysqlDemo { def main(args: Array[String]): Uni

Spark Sql JDBC实现聚合、union、同数据源Join等下推

weixin_43588586的博客

05-09

1561

Spark Sql JDBC实现聚合、union、同数据源Join等下推简单熟悉下Spark Sql 处理JDBC数据源数据 spark Sql处理JDBC数据源的代码比较简单，大家可以自行阅读官网使用demo。个人觉得比较鸡肋的地方单元测试如下：说明： emp，dept两个表是通过spark 读取mysql的同一个库的两张表 test("selectSubQuery"){ val sql = """ |select * |from

SparkSQL数据源之通过JDBC加载Mysql数据

ITBOY_ITBOX博客

05-15

355

Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。注意:需要将相关的数据库驱动放到spark的类路径下。（1）启动spark-shell $ bin/spark-shell （2）从Mysql数据库加载数据方式一 val jdbcDF = spark.read .fo...

spark读取mysql数据库用sparksql进行查询

登峰造极胡子球手

04-23

3873

package day0413 import java.util.Properties import org.apache.spark.sql.{DataFrame, SparkSession} object SparkSqlReadMysql { def main(args: Array[String]): Unit = { val sqlcontext: SparkSessi...

spark mysql 多表查询,如何使用Spark SQL列出数据库中的所有表？

weixin_35853254的博客

02-07

1056

I have a SparkSQL connection to an external database:from pyspark.sql import SparkSessionspark = SparkSession \.builder \.appName("Python Spark SQL basic example") \.getOrCreate()If I know the name of...

Spark连接MySQL实战：Java实现数据库操作

"这篇资源是关于使用Java编程语言在Spark框架下连接MySQL数据库的一个实例教程。作者通过整合Spring和MyBatis，利用Maven管理项目，创建了一个连接池类（ConnectionPool），并提供了获取和归还数据库连接的方法。在...