Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

8 篇文章 0 订阅
4 篇文章 0 订阅

1. External Data Source 外部数据源

    1)每一个spark程序以加载数据开始,以输出数据结束

    2)方便快速的从不同的数据源(json、parquet/rdbms),经过混合处理,在将处理结果以特定的格式,写回到指定的系统(HDFS S3)中

处理过程:

    1)要从关系型数据库导入大数据系统,然后处理完再导回原有数据库

目标:

    1)对于开发者:不需要把代码合并到spark源码中

    2)非常方便的加载和读取

    spark.read.format(format) 读

    people.write.format("parquet").save("path") 写  格式+路径

 

2. 操作Parquet文件数据

    1)加载数据 spark.read.format("parquet").load(path)

    2)写入数据 df.write.format("parquet").save(path)

 

3. 操作Hive表数据

    1)Spark.table(tableNmae) 读Hive表数据

    2)df.write.saveAsTable(tableName) 写入数据

    3)spark.sql("select deptno,count(1)from emp group by deptno").filter("deptno is not null").write.saveAs

    4)spark.tbale("在这里写入sql语句")

    5)注意设置分区数量,默认是200 

      spark.sqlContext.setConf("spark.sql.shuffle.partitions","10")

 

4. 操作Mysql数据库等关系型数据库

 

5.关联MySQL和Hive表数据关联操作

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值