Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

最新推荐文章于 2019-04-23 19:18:47 发布

MG羽白

最新推荐文章于 2019-04-23 19:18:47 发布

阅读量5.1k

点赞数

分类专栏： SQL 数据库 Spark 文章标签： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/canglan211/article/details/82953549

版权

Spark 同时被 3 个专栏收录

18 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

1. External Data Source 外部数据源

1）每一个spark程序以加载数据开始，以输出数据结束

2）方便快速的从不同的数据源（json、parquet/rdbms），经过混合处理，在将处理结果以特定的格式，写回到指定的系统（HDFS S3)中

处理过程：

1）要从关系型数据库导入大数据系统，然后处理完再导回原有数据库

目标：

1）对于开发者：不需要把代码合并到spark源码中

2）非常方便的加载和读取

spark.read.format(format) 读

people.write.format("parquet").save("path") 写格式+路径

2. 操作Parquet文件数据

1）加载数据 spark.read.format("parquet").load(path)

2）写入数据 df.write.format("parquet").save(path)

3. 操作Hive表数据

1）Spark.table(tableNmae) 读Hive表数据

2）df.write.saveAsTable(tableName) 写入数据

3）spark.sql("select deptno,count(1)from emp group by deptno"）.filter("deptno is not null").write.saveAs

4）spark.tbale("在这里写入sql语句")

5）注意设置分区数量，默认是200

spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")

4. 操作Mysql数据库等关系型数据库

5.关联MySQL和Hive表数据关联操作

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

1. External Data Source 外部数据源 1）每一个spark程序以加载数据开始，以输出数据结束 2）方便快速的从不同的数据源（json、parquet/rdbms），经过混合处理，在将处理结果以特定的格式，写回到指定的系统（HDFS S3)中处理过程： 1）要从关系型数据库导入大数据系统，然后处理完再导回原有数据库目标： 1）对于...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。