rdd文件python怎么mysql,PySpark连接到s3读取文件到rdd

最新推荐文章于 2024-03-07 14:44:34 发布

weixin_39705065

最新推荐文章于 2024-03-07 14:44:34 发布

阅读量90

点赞数

文章标签： rdd文件python怎么mysql

我正在尝试使用pyspark连接到我的s3存储桶。

代码如下：from boto.s3.connection import S3Connection

AWS_KEY = '...'

AWS_SECRET = '...'

aws_connection = S3Connection(AWS_KEY, AWS_SECRET)

bucket = aws_connection.get_bucket('activitylogs-prod')

sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", AWS_KEY)

sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", AWS_SECRET)

print len(list(bucket.list()))

for key in bucket.list():

file_name = 's3n://myBucket/'+key.name

print file_name

rdd = sc.textFile(file_name

,'org.apache.hadoop.mapred.TextInputFormat',

'org.apache.hadoop.io.Text',

'org.apache.hadoop.io.LongWritable'

)

print rdd.count()

它抛出了一个例外：

^{pr2}$

以前，它会抛出一些东西，比如："s3n" not recognized

Am正在使用Spark 1.6和Hadoop 2.6

我已经检查了很多线程，但在我的情况下似乎没有任何效果。在

任何关于如何处理这一问题的建议都将不胜感激。在

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注