Spark读写S3（AWS亚马逊中国区beijing）

最新推荐文章于 2024-06-08 10:23:59 发布

Utopia_1919

最新推荐文章于 2024-06-08 10:23:59 发布

阅读量6.2k

点赞数

分类专栏： spark 文章标签： spark s3 中国

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Utopia_1919/article/details/52449514

版权

由于AWS亚马逊中国区的region隔离，使用Spark读写S3需设置特定endpoint。需引入hadoop-aws-2.7.2.jar和aws-java-sdk-1.7.4.jar，并在程序中配置hadoopConfiguration。未明确s3和s3n格式endpoint定义，否则可能出现403错误。

摘要由CSDN通过智能技术生成

Spark读写S3（AWS亚马逊中国区）

因为中国区的region相对于其他国家是隔离的，所以在中国使用亚马逊S3需要单另设置endpoint来指定地区。

首先我们需要引入hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar，以及aws自己提供的sdk包：aws-java-sdk-1.7.4.jar

使用2.7.2的原因是由于hadoop2.7.2才支持s3。

接下来我们在程序中定义hadoopConfiguration配置option

sc.hadoopConfiguration.set("fs.s3a.access.key", "youraccesskey")
sc.hadoopConfiguration.set("fs.s3a.secret.key", "yoursecretkey")
sc.hadoopConfiguration.set("fs.s3a.endpoint", "s3.cn-north-1.amazonaws.com.cn")
val myRdd = sc.textFile("s3a://your_bucket/")

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark读写S3（AWS亚马逊中国区beijing）

Spark读写S3（AWS亚马逊中国区）因为中国区的region相对于其他国家是隔离的，所以在中国使用亚马逊S3需要单另设置endpoint来指定地区。首先我们需要引入hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar，以及aws自己提供的sdk包：aws-java-sdk-1.7.4.jar使用2.7.2的原因是由于hadoop2.7.2才支持s3。接下来我们在程序中定义
复制链接

扫一扫

专栏目录

Utopia_1919 CSDN认证博客专家 CSDN认证企业博客

码龄8年

13: 原创

119万+: 周排名

146万+: 总排名

4万+: 访问

: 等级

631: 积分

6: 粉丝

12: 获赞

4: 评论

31: 收藏

私信

关注

热门文章

分类专栏

mahout 5篇
用户行为分析 1篇
scala
docker 1篇
spark 2篇
python 1篇

最新评论

python设置定时任务（定时执行脚本）
艾孜尔江: while true????????????????????
Spark读写S3（AWS亚马逊中国区beijing）
yan12344: 请问老师，如何“引入Hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar，以及aws自己提供的sdk包：aws-Java-sdk-1.7.4.jar”呢？我是小白，用的是单机版本的spark，python接口。期望您的解答
mahout之推荐系统源码笔记（2） ---相似度计算之RowSimilarityJob
qq_27380363: 楼主,我觉得下面有点疑问,我可以解释一下,如果有误请指出. 每行最相似度最大的topN个Item,最后生成的矩阵并非是对称矩阵,是一个非对称矩阵来的. 而mahout第一步求出了对称矩阵的上半段,下半段是没有求出, 因此算法分为两部走: (1)一部分为了性能,对上半段的每一行求topN,可以节省数据量. (2)下面的reduce是重新整合变成对称矩阵的下半段,再求出每一行的topN. 根据这两部分运算,计算速度是大幅度提高. protected void reduce(IntWritable row, Iterable<VectorWritable> partials, Context ctx) throws IOException, InterruptedException { Vector allSimilarities = Vectors.merge(partials); //重新求一遍TopN（因为转置以后得到的相似度还没有求过topN） //其实笔者认为数据量不大或者数据关联性不高的时候可以先求转置然后一次性直接求topN的 //这里mahout它是map的时候对对称矩阵的上半段求TopN然后在reduce中对所有再求一遍TopN Vector topKSimilarities = Vectors.topKElements(maxSimilaritiesPerRow, allSimilarities); ctx.write(row, new VectorWritable(topKSimilarities)); }
mahout之推荐系统源码笔记（2） ---相似度计算之RowSimilarityJob
「已注销」: 楼主，这个代码能给我发一份吗？ booksaga@163.com

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。