mysql spark jdbcrdd_使用spark jdbcRDD的坑

最新推荐文章于 2024-07-16 00:02:43 发布

阿豪1Q97

最新推荐文章于 2024-07-16 00:02:43 发布

阅读量257

点赞数

文章标签： mysql spark jdbcrdd

本文链接：https://blog.csdn.net/weixin_36205186/article/details/113324027

版权

spark的jdbcRDD可以让你连接到jdbc数据库上，以数据库表里的数据构建dataframe，非常方便。如下python代码：

dataframe = spark.read \

.jdbc(“jdbc:mysql://192.168.111.111:3306/mydatabase”,

“mytable”,

column=’incidentId’, lowerBound=0, upperBound=40000000, numPartitions=20000,

properties={“user”: “myusername”, “password”: “mypass”,

“useUnicode”: “true”, “characterEncoding”: “utf8”,

“rewriteBatchedStatements”: “true”, “connectTimeout”: “60000”,

“socketTimeout”: “60000”})\

.select(‘colum1’, ‘colum2’ )\

.withColumnRenamed(“colum1”, “originalid”) \

.withColumn(“newColumn”, lit(5))

根据接口，需要指定column和numPartitions以便分区，lowerBound和upperBound应该对应column中的最小值和最大值，以便界定dataframe的边界。

但是坑爹的是，lowerBound和upperBound参数根本不起作用，spark会把该表中所有的数据都load出来。

我的表中有4000万的数据，每次实验都会out of memory。就只能分很多区，然后每个区分别处理就好了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿豪1Q97

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark jdbcRDD(java)

10-06

使用java调用spark jdbcRDD缓存数据库数据样例

Spark JdbcRDD

zhang5059的专栏

04-28

1120

JdbcRDD 用来链接数据库，直接重数据库中获取数据分析。JdbcRDD有6个参数。 1、 sc SparkContext 类型变量 2、链接 jdbc的链接对象 3、sql语句，一般为查询语句 4和5 、为上下边界。 6、partitions 分区数最后一个参数，里面存放的是执行sql语句的返回值。JdbcRDD[T: ClassTag]( sc: SparkConte

参与评论您还未登录，请先登录后发表或查看评论

《故障复盘 · 数据库连接异常关闭》

最新发布

山人行

07-16

944

博主所在公司的产品线，部署上线了多家客户，遇到的线上故障的场景也较多，这边继续更新一下故障复盘系列，记录并分享一下这些故障的的定位、分析、解决过程。这里分享的这篇，是由于Druid连接异常关闭，进而引发大范围故障的问题。此篇文章介绍了连接异常关闭的故障复盘，仅供学习参考。出现问题并不可靠，主要是能从问题中总结出什么东西，这些不断积累的过程才是令人兴奋的。Tips：青海长云暗雪山，孤城遥望玉门关。黄沙百战穿金甲，不破楼兰终不还。

Spark JDBC RDD

Claroja

10-28

193

package spark import java.sql.{DriverManager} import org.apache.spark.rdd.{JdbcRDD, RDD} import org.apache.spark.{SparkConf, SparkContext} object JdbcRddDemo { val getConn = () => { DriverM...

Spark- JdbcRDD以及注意事项

weixin_34128411的博客

04-06

184

先上Demo package com.rz.spark.base import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcRDDDemo { def main(args:...

Spark与Mysql(JdbcRDD)整合开发(zh)

张伟的专栏

01-04

1万+

Spark的功能是非常强大，在本博客的文章中，我们讨论了《Spark和Hbase整合》、《Spark和Flume-ng整合》以及《和Hive的整合》。今天我们的主题是聊聊Spark和Mysql的组合开发。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop 　　在Spark中提供了一个JdbcRDD类，该RDD就是读取JD

spark之使用JdbcRdd读取Mysql中的数据

SOARING

04-17

1067

重点在new JdbcRDD时的七个参数：如下图所示 package com.thy.d20190417 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} object JdbcRDDDemo { de...

Spark读取Mysql数据 JdbcRDD方式

weixin_42469955的博客

02-25

493

咱们先来看下他的源码主要看下它的参数：下面是对参数的解释： sc: SparkContext, // 这个是上下文的环境对象 getConnection: () => Connection, //这里是个无参函数返回Connection sql: String, // 这个是自己写的sql lowerBound: Long, // 指的是数据的范围数据上限 upperBound: ...

Spark JDBCRDD详解

zhou12314的专栏

10-14

716

参数解释在使用jdbc rdd的时候，我们一块需要传递7个参数 valdata=newJdbcRDD( sc, getConnection, "select*fromtablewhereid>=?andid<=?", 1, 10, 2, flatValue ...

spark mysql 连接超时_记录一次spark连接mysql遇到的问题

weixin_42376940的博客

02-01

972

版权声明：本文为博主原创文章，未经博主允许不得转载在使用spark连接mysql的过程中报错了，错误如下08:51:32.495 [main] ERROR - Error loading factory org.apache.calcite.jdbc.CalciteJdbc41Factoryjava.lang.NoClassDefFoundError: org/apache/calcite/li...

spark mysql多表查询_scala spark2.0 sparksql 连接mysql8.0 操作多表使用 dataframe 及RDD进行数据处理...

weixin_30199703的博客

02-04

548

1、配置文件package configimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}case object conf {private val master = "local[*]"val confs: SparkConf = new SparkConf().set...

spark之JDBCRDD--从Mysql中读取数据

weixin_43866709的博客

03-25

4769

spark中的RDD有很多对应的实现，比如JdbcRDD,是用来从MySQL中读取数据的。先来看一下JdbsRDD的源码： /** * An RDD that executes a SQL query on a JDBC connection and reads results. * For usage example, see test case JdbcRDDSuite. * * @...

SparkCore代码笔记05——JDBCRDD

zgm12的博客

02-21

174

查询mysql数据库结果，生成一个rdd 需要导入依赖 mysql-connector-java这个依赖 package com.qf.gp1921.day12 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContex...

大数据学习之路83-JdbcRDD的使用

爱米酱的博客

09-26

1001

上次我们将分析完的结果写入了关系数据库，那么我们能不能从关系数据库中读取数据，然后再进行计算。 JdbcRDD有固定的参数要求如下：从数据库读取数据的代码： package com.test.jdbcRDDTest import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache...

spark的JdbcRDD的源码修改--创建JdbcRDD时可以不加条件进行查询

热门推荐

alanchanchn的专栏

09-08

4万+

在我们使用JdbcRDD时系统默认的参数如下： sc: SparkContext, getConnection: () => Connection, sql: String, lowerBound: Long, upperBound: Long, numPartitions: Int, mapRow: (ResultSet) => T = JdbcRDD.resultSetToObjectA

Spark 获取jdbc Rdd

sharkdoodoo

09-19

1345

Spark中获取Jdbc的RDD有两种方式：一种是内置了JdbcRDD类，通过new该类就能对通过Jdbc读取数据并且转换成Rdd，另一种是通过SparkSQL中SQLContext jdbc方法获取DataFrame，然后其中第一种方法在1.3和1.5基本一样，其构造函数如下： class JdbcRDD[T: ClassTag]( sc: SparkContext,

Spark-jdbcRDD-mysql

开水烫鱼的博客

01-22

250

将数据导入到mysql object UrlGroupCount1 { def main(args: Array[String]): Unit = { //1.创建spark程序入口 val conf: SparkConf = new SparkConf().setAppName("UrlGroupCount1").setMaster("local[2]") val s...

java jdbcrdd,Spark- JdbcRDD以及注意事项

weixin_42184548的博客

03-13

203

import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}objectJdbcRDDDemo {def main(args: Array[String]): Unit={val conf= new SparkConf().setAp...

mysql jdbcrdd_Spark与Mysql(JdbcRDD)整合开发(zh)

weixin_34201593的博客

02-03

157

在Spark中提供了一个JdbcRDD类，该RDD就是读取JDBC中的数据并转换成RDD，之后我们就可以对该RDD进行各种的操作。我们先看看该类的构造函数：1JdbcRDD[T: ClassTag](2sc: SparkContext,3getConnection: () => Connection,4sql: String,5lowerBound: Long,6upperBound: Lo...

Openfire+Spark安装与使用指南

Spark 2.5.8是与Openfire配合使用的客户端软件，提供丰富的功能，如聊天界面、音视频通话、会议创建等。安装Spark时，只需按照安装向导的指示进行即可。配置MSN网关是在Openfire中启用与MSN用户的通信。在第四章中...