数仓之spark数据采集

最新推荐文章于 2024-08-29 21:27:55 发布

csdn_wr

最新推荐文章于 2024-08-29 21:27:55 发布

阅读量1.6k

点赞数 1

分类专栏：大数据-计算引擎-SPARK 文章标签： spark 数据仓库

本文链接：https://blog.csdn.net/csdn_wr/article/details/116205338

版权

大数据-计算引擎-SPARK 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

概要

由于spark可以接入非常多的数据源，且能够完美连接hive库，那么离线数仓以spark作为数据采集工具，将是一个方便可行的方案。

配置文件json

参考alibaba开发的datax数据同步工具，及目前的flinkx数据同步工具，以json文件作为配置文件，主要分为reader模块，writer模块。这里列出hive->mysql的json demo

{
  "cluster":"10.40.3.26",
  "reader":{
    "name":"hivereader",
    "sql":"select * from  dphj.dim_base_afc_device"
  },
  "writer":{
    "name":"mysqlwriter",
    "url":"jdbc:mysql://localhost:3306/test1?characterEncoding=utf8&serverTimezone=UTC&useSSL=false",
    "username":"root",
    "password":"root",
    "table":"hive_test",
    "writeMode":"append",
    "preSql":"truncate table hive_test",
    "afterSql":""
  }
}

连接hive

spark连接hive主要读取三个文件，分别读取hive下的，core-site.xml、hdfs-site.xml、hive-site.xml

      sparkSession.sparkContext.hadoopConfiguration.addResource(coreSiteFileName)
      sparkSession.sparkContext.hadoopConfiguration.addResource(hdfsSiteFileName)
      sparkSession.sparkContext.hadoopConfiguration.addResource(hiveSiteFileName)

这样spark就连接上了hive

连接其他数据源

jdbc数据源
通过sparkSession内置的方法，读取数据转化为dataframe

    sparkSession.read.format("jdbc").options(
      Map(
        "url" -> url,
        "dbtable" -> s"(${sqlText}) t",
        "user" -> userName ,
        "password"->password
      )
    ).load

文件数据源
利用sparkContext.textFile 读取文件，数据类型为RDD[String]，转化为RDD[Row]，再将RDDrow转化为dataframe，就可以注册为临时表了
其他数据源
思路就是如果spark实现了的数据源，先获取得到rdd，想办法把rdd转化为dataframe，然后注册成表就ok了