spark mysql作为数据源读取数据操作

最新推荐文章于 2024-04-30 15:10:24 发布

方兵兵

最新推荐文章于 2024-04-30 15:10:24 发布

阅读量1k

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/u010800708/article/details/87909440

版权

大数据专栏收录该内容

36 篇文章 0 订阅

订阅专栏

1、sparkSQL操作需要创建SparkSession，sparkRDD操作需要创建SparkContext。
这里使用sparkSession

val sparkSession:SparkSession = SparkSession.builder()
.appName("JdbcSource")
.master("local[2]")
.getOrCreate()

2、加载数据源
url:连接到具体数据库
driver:mysql驱动
dbtable:urlcount数据库中的表名
user:数据库urlcount用户名
password:密码

import sparkSession.implicits._
val url_data:DataFrame = sparkSession.read.format("jdbc")
.options(Map(
"url" -> "jdbc:mysql://localhost:3306/urlcount",
"driver" -> "com.mysql.jdbc.Driver",
"dbtable" -> "url_data",
"user" -> "root"
"password" -> "root"
))

3、过滤

val r:Dataset[Row] = url_data.filter($"uid" > 2)
val rs:DataFrame = r.select($"xueyuan",$"number_one")

4、显示

rs.show()

5、读取后保存
以txt文件保存，注意r.select($“xueyuan”)这里只能单列

rs.write.text("e:/saveText")

以json格式保存

rs.write.json("e:/saveJson")

以csv格式保存这是excel

rs.write.csv("e:/saveCsv")

以parquet格式保存

rs.write.parquet("e:/savePar")

6、关闭资源

sparkSession.stop()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

方兵兵

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark mysql 数据源_Spark DataFrame使用MySQL作为数据源

weixin_30297493的博客

01-19

277

本文简单介绍DataFrame从MySQL中组织数据。所用语言为spark自身支持的scala一、环境准备首先确保你正确安装了spark，包括配置好环境；建立一个数据库名为testDF,创建表user,包含如下数据idnameage1chen212liang22二、从MySQL表中创建DataFrame1.运行spark本地单进程模式：spark-s...

Spark操作外部数据源之Mysql数据源

大数据跟我学i

04-24

256

将RDD中数据写入到Mysql中实际开发中常常将分析结果RDD保存至MySQL表中，使用foreachPartition函数；此外Spark中提供JdbcRDD用于从MySQL表中读取数据。调用RDD#foreachPartition函数将每个分区数据保存至MySQL表中，保存时考虑降低RDD分区数目和批量插入，提升程序性能。范例演示：将词频统计WordCount结果保存MySQL表tb_wordcount。建表 USE db_test ; CREATE TABLE `tb_wordcount` (

参与评论您还未登录，请先登录后发表或查看评论

spark数据源mysql_Spark - 直接操作数据源 MySQL

weixin_36462094的博客

01-20

134

> 如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。## 读取```val mysqlDF = spark.read.format("jdbc").option("driver","com.mysql.jdbc.Driver").option("url","jdbc:mysql...

spark stream mysql_spark streaming使用数据源形式插入mysql数据_mysql

weixin_39583162的博客

01-19

import java.sql.{Connection, ResultSet} import com.jolbox.bonecp.{BoneCP, BoneCPConfig} import org.slf4j.LoggerFactory object ConnectionPool { val logger = LoggerFactory.getLogger(this.getClass) ...

Spark读写MySQL数据库

qq_42260493的博客

12-13

1967

使用Spark读写MySQL数据

spark读取hbase数据，并使用spark sql保存到mysql

09-24

通过使用 DataFrame API 和 Spark SQL，可以方便地在不同的数据源之间进行数据迁移和处理。在实际应用中，根据具体需求，你可能还需要处理数据类型转换、错误处理等问题，以确保数据的一致性和完整性。

spark从mysql读取数据_Spark读取数据库(Mysql)的四种方式讲解

weixin_39844880的博客

01-18

1152

现在Spark支撑四种办法从数据库中读取数据，这里以Mysql为例进行介绍。一、不指定查询条件这个办法连接MySql的函数原型是：def jdbc(url: String, table: String, properties: Properties): DataFrame咱们只需求供给Driver的url，需求查询的表名，以及连接表有关特点properties。下面是详细比如：val url = ...

Spark SQL数据源-基本操作

new_renren的博客

05-31

956

默认情况下，load()方法和save()方法只支持Parquet格式的文件，Parquet文件是以二进制方式存储数据的，因此不可以直接读取，文件中包括该文件的实际数据和Schema信息，也可以在配置文件中通过参数spark.sql.sources.default对默认文件格式进行更改。除了使用select()方法查询外，也可以使用SparkSession对象的sql()方法执行SQL语句进行查询，该方法的返回结果仍然是一个DataFrame。

SparkStreaming读取Kafka数据源并写入Mysql数据库

qq_45862976的博客

11-24

5607

SparkStreaming读取Kafka数据源并写入Mysql数据库一、实验环境本实验所用到的工具有 kafka_2.11-0.11.0.2； zookeeper-3.4.5； spark-2.4.8； Idea； MySQL5.7 什么是zookeeper？ zookeeper 主要是服务于分布式服务，可以用zookeeper来做：统一配置管理，统一命名服务，分布式锁，集群管理。使用分布式系统就无法避免对节点管理的问题（需要是实时感知节点的状态，对接点进行统一管理等等），而由于这些问题处理起来

Spark使用Java读取Mysql

最新发布

hhujjj2005的博客

04-30

444

2 Idea,maven工程。Spark版本：3.5.0。创建表user表和插入数据。

从spark读取mysql中的数据

qq_45786391的博客

05-20

1463

【注意】需要提前将驱动放到spark安装目录下的jars中，然后关掉现有的pyspark，重新打开终端登录pyspark，再运行读取数据的程序。 jdbcDF=spark.read\ .format("jdbc")\ .option("driver","com.mysql.jdbc.Driver")\ .option("url","jdbc:mysql://localhost:3360/sparkass")\ .option("dbtable","student")\ .option("user","roo

Spark -- 读取mysql的4种方式和各自的应用场景

TheBigBlue的博客

07-18

9092

spark read mysql

jdbc mysql spark_Spark通过JDBC使用MySQL作为数据源

weixin_28944739的博客

02-26

236

假设场景：用户使用beeline或者其他JDBC客户端，通过Spark Thrift server的JDBC服务，来访问MySQL。一般来说，直接通过JDBC来访问MySQL，可以肯定其数据量不大(无论是从MySQL读还是写到MySQL)，否则应该将MySQL的数据导入到Hive库中(当然可以使用create table xxx stored as parquet as select * from...

SparkSeesion读写mysql

https://blog.csdn.net/sinat_36710456

12-10

1581

package cn.xjw import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} //实体类 case class MY_TEST_DB(val id:Int,val name:String,password:String) object DB { def mai...

spark编程mysql数据源_Spark - 直接操作数据源 MySQL

weixin_28695161的博客

02-04

130

如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。读取val mysqlDF = spark.read.format("jdbc").option("driver","com.mysql.jdbc.Driver").option("url","jdbc:mysql://localhos...

mysql外部数据源_Spark操作外部数据源--MySQL

weixin_28363123的博客

01-19

操作MySQL的数据:spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/sparksql").option("dbtable", "sparksql.TBLS").option("user", "root").option("password", "root").option("driver", "com.my...

spark编程mysql数据源_JDBC数据源

weixin_29762151的博客

02-11

163

Spark SQL支持使用JDBC从关系型数据库(比如MySQL)中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用Spark Core提供的各种算子进行处理。这里有一个经验之谈，实际上用Spark SQL处理JDBC中的数据是非常有用的。比如说，你的MySQL业务数据库中，有大量的数据，比如1000万，然后，你现在需要编写一个程序，对线上的脏数据某种复杂业务逻辑的处理，甚至复...

Spark 直接操作数据源 MySQL

多一份贡献,多一份环保

02-21

1246

如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。读取 val mysqlDF = spark .read .format("jdbc") .option("driver","com.mysql.jdbc.Driver") .option("url","jdbc:...

spark sql操作外部数据源（parquet、hive、mysql）

09-03

Spark SQL可以通过DataFrame API或SQL语句来操作外部数据源，包括parquet、hive和mysql等。其中，parquet是一种列式存储格式，可以高效地存储和查询大规模数据；hive是一种基于Hadoop的数据仓库，可以通过Spark SQL...