Spark 外部数据源

最新推荐文章于 2024-08-25 08:28:53 发布

zghgchao

最新推荐文章于 2024-08-25 08:28:53 发布

阅读量769

点赞数

分类专栏： spark 文章标签： spark avro External Data Source

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22027637/article/details/78914195

版权

spark 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

External Data Sources

rdbms，need JDBC jars
Parquet、Phoenix、CSV、avro etc

已使用avro外部数据源为例：

参考【https://spark-packages.org/】这data Sources部分

With `spark-shell` or `spark-submit`

$ bin/spark-shell --packages com.databricks:spark-avro_2.11:4.0.0

使用Maven添加依赖

<dependency>
    <groupId>com.databricks</groupId>
    <artifactId>spark-avro_2.11</artifactId>
    <version>4.0.0</version>
</dependency>

Scala API

// import needed for the .avro method to be added
import com.databricks.spark.avro._
import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder().master("local").getOrCreate()

// The Avro records get converted to Spark types, filtered, and
// then written back out as Avro records
val df = spark.read.avro("src/test/resources/episodes.avro")
df.filter("doctor > 5").write.avro("/tmp/output")

Alternatively you can specify the format to use instead:

val spark = SparkSession.builder().master("local").getOrCreate()
val df = spark.read
    .format("com.databricks.spark.avro")
    .load("src/test/resources/episodes.avro")

df.filter("doctor > 5").write.format("com.databricks.spark.avro").save("/tmp/output")

You can specify a custom Avro schema:

import org.apache.avro.Schema
import org.apache.spark.sql.SparkSession

val schema = new Schema.Parser().parse(new File("user.avsc"))
val spark = SparkSession.builder().master("local").getOrCreate()
spark
  .read
  .format("com.databricks.spark.avro")
  .option("avroSchema", schema.toString)
  .load("src/test/resources/episodes.avro").show()

参考【https://github.com/databricks/spark-avro#scala-api】

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zghgchao CSDN认证博客专家 CSDN认证企业博客

码龄10年

89: 原创

10万+: 周排名

146万+: 总排名

21万+: 访问

: 等级

2944: 积分

24: 粉丝

40: 获赞

18: 评论

103: 收藏

私信

关注

热门文章

分类专栏

java 数据结构与算法学习 1篇
hadoop 15篇
spark 31篇
java 45篇
mapReducer 1篇
Linux 10篇
kafka 1篇
Hbase 3篇
Hive 5篇
spark，DataFrame 1篇
DataFrame 2篇
DataSet 1篇
数据可视化 1篇
yarn 1篇
json 1篇
sparkStreaming
springData 2篇
jpaTemplate
MySQL 1篇
html 2篇
s
springCloud 3篇
springBoot 8篇
SQL 2篇
git 2篇

最新评论

Spring MVC请求包含List参数
CSDN-Ada助手: 非常感谢您的分享，这篇博客对于理解Spring MVC请求包含List参数非常有帮助。我建议你可以继续写关于Spring MVC的文章，比如如何处理文件上传和下载。这样的技术文章对其他用户也十分有用，相信会有更多读者受益。期待您的下一篇精彩博文！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
iview select 弹窗向上时被遮挡住了解决办法
我是朋朋啊: 设置transfer后下拉框高度变得特别高怎么解决
SpringBoot RestTemplate进行POST请求，from-data传参
超级猿力: 牛逼直接就给我把困难解决了
RDD保存SaveMode
吓人一跳: 这个不是rdd的吧，是sparksql结果集的df的保存方式吧
java List转String去掉[ 、]、空格
Tisfy: Nice!,古人云：酒债寻常行处有，人生七十古来稀。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。