Spark单机模式下使用mysql和DataFrame API

最新推荐文章于 2021-11-15 20:02:56 发布

孤立皮皮虾

最新推荐文章于 2021-11-15 20:02:56 发布

阅读量498

点赞数

分类专栏： spark 文章标签： spark DataFrame

本文链接：https://blog.csdn.net/sxs_smile/article/details/73276579

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

由于官网的exmpale和查找到的资料都不没有完全对,所以整理一下.
1,首先下载jdbc的jar,下载地址: https://dev.mysql.com/downloads/connector/j/
2,数据库 test,表名people,有name和age两个字段
3,启动spark shell

./spark-shell --driver-class-path /path/to/jdbc/jar/mysql-connector-java-5.1.34-bin.jar

4,定义mysql地址

scala> val url="jdbc:mysql://localhost:3306/test"

5,创建链接信息

scala> val prop = new java.util.Properties
scala> prop.setProperty("user","root")
scala> prop.setProperty("password","pwd for root")

6,定义sqlContext,这里官网的example不太对,sqlContext需要定义

val sqlContext = spark.sqlContext

7,使用jdbc加载dataframe

scala> val df = sqlContext.read.jdbc(url,"people",prop)

8,查看DataFrame的数据

scala> df.show()

9,查看DataFrame的结构

scala> df.printSchema()

10,按照age分组,计数

scala> val countsByAge = df.groupBy("age").count()
scala> countsByAge.show()

11,参考链接:
http://spark.apache.org/examples.html
http://www.infoobjects.com/spark-connecting-to-a-jdbc-data-source-using-dataframes/
https://stackoverflow.com/questions/40537035/error-not-found-value-sqlcontext-on-emr

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

孤立皮皮虾

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sparkSQL本地单机版测试配置

draven1122的博客

11-02

1493

配置SparkConfig,并采用直连方式搜索数据源中所有数据表格并且创建视图，不这样做的话，每一次查询之前都必须将要查询的表创建试图才能找到（目前认为Spark不会自动遍历数据源中的表格并且自动createTempView）,代码如下 package object learn { val driver = "com.mysql.jdbc.Driver" var conn: Co

spark SQL、Dataframe、Dataframe 和 RDD 的区别、spark SQL WordCount

赤兔胭脂小吕布的博客

03-11

396

目录首先让我们来回顾一下 spark 的生态系统spark SQLDataframeDataframe 和 RDD 的区别spark SQL WordCount首先让我们来回顾一下 spark 的生态系统 spark SQL Dataframe 与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还掌握数据的结构信息，即sch...

参与评论您还未登录，请先登录后发表或查看评论

Shell创建MySQL数据表

07-22

我不知道当一个数据库设计完成之后如何快速的创建设计好的数据库表和添加相应基本数据，我目前知道的就是使用Shell和SQL脚本来达到我的目的--快速的、多次的、可重复利用的创建数据库表。

使用sparkSQL2.x读取MySQL方法和配置问题

徐志的博客

10-17

3081

读取数据之前需要你pc上有mysql，有了mysql之后你需要知道详细的配置信息例如账号和密码以及数据库下的表和表结构，你还有要连接驱动（点此下载https://download.csdn.net/download/qq_36968512/10471651） 1.首先你需要创建sparksession 2.设置一个map集合把JIDBC的链接配置放上去 3.使用SparkSession的方法...

spark sql 单机版运行demo 及遇到的问题小结

weixin_30826761的博客

07-26

166

1、先上代码。 package Test import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} case class Person(name:String, age:Int) /** * Created by admin on 2017/7/25...

spark本地运行模式

weixin_34221332的博客

09-28

216

Spark设置setMaster=local，不提交集群，在本地启用多线程模拟运行objectSparkUtil{ privatevallogger=Logger.getLogger(getClass.getName,true) defgetSparkContext(appName:String,local:Boolean=false,...

使用MySQL、SQLite、Tableau、Apache Spark的SQL数据分析和可视化项目仅供学习参考用代码.rar

最新发布

05-14

3. 分析和预处理：在Spark上执行数据清洗和转换操作，利用pandas库和DataFrame API。 4. 可视化：使用Tableau创建各种图表，如折线图、柱状图、散点图和地理地图，探索数据模式和趋势。 5. 性能优化：在MySQL中实践...

Spark DataFrame、Spark SQL、Spark Streaming入门教程

pysense的博客

01-14

2111

文章目录前言1、RDD、Spark DataFrame、Spark SQL、Spark Streaming2、Spark DataFrame2.1 创建基本的Spark DataFrame2.2 从各类数据源创建Spark DataFrame2.3 Spark DataFrame持久化数据2.4 Dataframe常见的API3、Spark SQL4、Spark Streaming实时计算TCP...

zeppelin spark mysql_Zeppelin0.5.6使用spark解释器

weixin_29498577的博客

02-22

421

Zeppelin为0.5.6Zeppelin默认自带本地spark，可以不依赖任何集群，下载bin包，解压安装就可以使用。使用其他的spark集群在yarn模式下。配置：vi zeppelin-env.sh添加：export SPARK_HOME=/usr/crh/current/spark-clientexport SPARK_SUBMIT_OPTIONS="--driver-memory 51...

Spark（第五节） RDD、DataFrame、DataSet的介绍与比较，创建DataFrame和DataSet，三者之间互相转换，scala代码创建和使用DataFram

hwq317622817的博客

02-19

547

目录RDD、DataFrame、DataSet的介绍与比较概述RDD基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别创建DataFrame读取文本文件创建DataFrame第一种方式：通过RDD配合case class进行转换DF第二种方式：通过sparkSession构建DataFrame读取json文件创建DataFrame读取parquet列式存储格式文件创建DataFrame创建DataSet第一种方式创建DataSet第二种方式创建DataSet第三种方式创建DataS

Spark 操作 JDBC

weixin_45417821的博客

11-15

3911

Spark SQL 可以通过 JDBC 从关系型数据库中读取数据的方式创建 DataFrame，通过对DataFrame 一系列的计算后，还可以将数据再写回关系型数据库中。如果使用 spark-shell 操作，可在启动 shell 时指定相关的数据库驱动路径或者将相关的数据库驱动放到 spark 的类路径下。 bin/spark-shell --jars mysql-connector-java-5.1.27-bin.jar 我们这里只演示在 Idea 中通过 JDBC 对 Mysql 进行操作 1.

Spark 2.3.0操作MySQL

m0_37324825的博客

04-26

5585

代码读取MySQL数据表转化为DataFrame包含三种方法：前两种方法通过spark.read()返回一个DataFrameReader，然后format("jdbc")，设定读取格式为jdbc，配置连接信息，最后通过load()加载DataFrame。两种不同方法不同在于配置信息的方式不同。后一种方法也通过spark.read()返回一个DataFrameReader，但直接通过jdbc()来...

Spark-SQL从MySQL中加载数据以及将数据写入到mysql中（Spark Shell方式，Spark SQL程序）

热门推荐

涂作权的博客

07-11

1万+

1． JDBCSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。1.1．从MySQL中加载数据（Spark Shell方式）1.启动Spark Shell，必须指定mysql连接驱动jar包[root@hadoop1 spark-2.1.1-bin-hadoop2.7]# bin/spa

spark 写mysql 设置主键_Spark将计算结果写入到Mysql中

weixin_39715907的博客

12-30

402

今天主要来谈谈如何将Spark计算的结果写入到Mysql或者其他的关系型数据库里面。其实方式也很简单，代码如下：package scalaimport java.sql.{DriverManager, PreparedStatement, Connection}import org.apache.spark.{SparkContext, SparkConf}object RDDtoMysql {c...

spark eclipse开发调试本地单机模式

烂笔头的专栏

11-24

2146

windows环境下使用eclipse开发spark程序，报错Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configuration at org.apache.spark.SparkContext.<init>(SparkContext.scala:

Spark快速入门之单机模式Java应用程序开发

厚积薄发

03-29

1904

http://blog.sina.com.cn/s/blog_59c29ded0102v4i7.html本文旨在记录初学Spark时，根据官网快速入门中的一段Java代码，在Maven上建立应用程序并实现执行。1.开发软件 1) JDK 版本：1.7 2) Maven 版本：3.2.3 : http://maven

Spark连接集群读取mysql数据库数据报ClassNotFound找不到驱动

weixin_33868027的博客

08-24

624

为什么80%的码农都做不了架构师？>>> ...

Spark DataFrame 添加自增id

k_wzzc的博客

12-13

6866

Spark DataFrame 添加自增id 在用SparkSQL 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在DataFrame的API中没有实现这一功能，所以只能通过其他方式实现，或者转成RDD再用RDD的 zipWithIndex 算子实现。下面呢就介绍两种实现方式方式一：利用窗口函数 // 加载数据 val datafr...

spark单机模式和集群模式安装

weixin_33785108的博客

03-01

352

2019独角兽企业重金招聘Python工程师标准>>> ...

Spark SQL入门指南：深度解析DataFrame和Dataset操作

"这份Spark文档提供了对Apache Spark的全面介绍，特别适合初学者，涵盖了Spark SQL的详细内容，包括SparkSession、Dataset、DataFrame以及各种操作和函数。" Apache Spark是大数据处理领域的一个重要框架，以其高效...