Spark读写S3(AWS亚马逊中国区beijing)

由于AWS亚马逊中国区的region隔离,使用Spark读写S3需设置特定endpoint。需引入hadoop-aws-2.7.2.jar和aws-java-sdk-1.7.4.jar,并在程序中配置hadoopConfiguration。未明确s3和s3n格式endpoint定义,否则可能出现403错误。
摘要由CSDN通过智能技术生成

Spark读写S3(AWS亚马逊中国区)

因为中国区的region相对于其他国家是隔离的,所以在中国使用亚马逊S3需要单另设置endpoint来指定地区。

首先我们需要引入hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar,以及aws自己提供的sdk包:aws-java-sdk-1.7.4.jar

使用2.7.2的原因是由于hadoop2.7.2才支持s3。

接下来我们在程序中定义hadoopConfiguration配置option

sc.hadoopConfiguration.set("fs.s3a.access.key", "youraccesskey")
sc.hadoopConfiguration.set("fs.s3a.secret.key", "yoursecretkey")
sc.hadoopConfiguration.set("fs.s3a.endpoint", "s3.cn-north-1.amazonaws.com.cn")
val myRdd = sc.textFile("s3a://your_bucket/")        
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值