Amazon S3中的数据同步至hive分区表中

本文介绍如何通过Spark程序实现从Amazon S3到HDFS再到Hive分区表的数据同步过程,包括编写Spark代码、配置pom.xml、打包、上传jar、提交Spark作业、创建Hive外部表以及数据加载和验证步骤。
摘要由CSDN通过智能技术生成

Amazon S3中的数据同步至hive分区表中

本篇主要讲解利用spark程序将appflyer采集的数据同步hdfs再同步到hive表中,从而对数据进行分析计算;。

1.编写Spark代码

①val spark = SparkSession.builder()
	            //.master("local[*]")
	            .config("spark.eventLog.enabled", "false")
	     	    .config("spark.driver.memory", "2g")
	            .config("spark.executor.memory", "2g")
	           .appName("SparkDemoFromS3")
	           .getOrCreate()
	 // AWS Access Key:*******
	 //Home Folder:******
	 //Bucket Name:*******
	 //Bucket Secret:******
	    spark.sparkContext.hadoopConfiguration.set("fs.s3a.access.key", "******")
	    spark.sparkContext.hadoopConfiguration.set("fs.s3a.secret.key", "******k")
	    spark.sparkContext.hadoopConfiguration.set("fs.s3a.endpoint", "s3-eu-west-1.amazonaws.com")
	    ImportData.Import(spark,args(0),args(1))





	②def Import(spark: SparkSession, name: String, dt: String): Unit = {
   
          val rdd0 = spark.sparkContext
      					  .textFile(s"s3a://af-ext-reports/216c-acc-iHe6xzdF-216c/data-locker-				hourly/t=$name/dt=$dt/h=0")
   		  val rdd1 = spark.sparkContext
    					  .textFile(s"s3a://af-ext-reports/216c-acc-iHe6xzdF-216c/data-locker-hourly/t=$name/dt=$dt/h=1")
    	  val rdd2 = spark.sparkContext
      					  .textFile(s"s3a://af-ext-reports/216c-acc-iHe6xzdF-216c/data-locker-hourly/t=$name/dt=$dt/h=2")
    	  val rdd3 = spark.sparkContext
                          .tex
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值