PySpark+HDFS+Kerberos

最新推荐文章于 2023-07-03 10:13:49 发布

kangwq2017

最新推荐文章于 2023-07-03 10:13:49 发布

阅读量619

点赞数

分类专栏： hadoop 文章标签： hdfs hadoop 大数据 spark Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aidway/article/details/129208767

版权

hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

软件：Spark - 3.1.1

环境：在windows中基于pycharm进行开发，使用远程Linux的python环境作为pycharm的解释器。

目标：通过pyspark读取开了Kerberos的HDFS集群上的文件。

配置：

在远程服务器上下载Spark

将hdfs-site.xml、yarn-site.xml、core-site.xml拷贝到linux服务器的spark/conf目录

准备好hdfs.keytab，可以通过klist -ket hdfs.keytab查看principal

编写代码

from pyspark import SparkContext, SparkConf
import os

os.environ['SPARK_HOME'] = '/home/xxx/kdh/spark'
os.environ['PYSPARK_PYTHON'] = '/software/anacondsa3/envs/pyspark_env/bin/python'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/software/anaconda3/envs/pyspark_env/bin/python'

if __name__ == '__main__':
    # 1. 创建sparkcontext对象
    conf = SparkConf().setMaster('local[*]').setAppName('WordCount_hdfs')
    conf.set('spark.kerberos.principal', "xxxxx")
    conf.set('spark.kerberos.keytab', '/xxxx/hdfs.keytab')

    sc = SparkContext(conf=conf)

    # 2. 读取数据
    rdd_init = sc.textFile('hdfs://dm47:8020/tmp/zzdb/words.txt')
    print(rdd_init.collect())

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

kangwq2017 CSDN认证博客专家 CSDN认证企业博客

码龄14年

82: 原创

19万+: 周排名

109万+: 总排名

17万+: 访问

: 等级

2248: 积分

12: 粉丝

53: 获赞

27: 评论

73: 收藏

私信

关注

热门文章

分类专栏

环境配置 1篇
经济学 1篇
python 1篇
poj 37篇
初心集 8篇
机器学习 3篇
Oracle 1篇
linux 8篇
windows 8篇
mysql 1篇
hadoop 9篇
java 2篇

最新评论

0-1背包：使用滚动数组时为何要逆序枚举
hello1979cn: 请问一下，滚动数组方案下，如果需要打印方案，能推导出来方案吗
0-1背包：使用滚动数组时为何要逆序枚举
雨宫奈原: 这样讲着就很清晰，终于明白了！
docker：不能访问宿主机
「才亿笔记」: 学长，你好，我问下，你这里说的启动docker时，是指启动docker服务？还是指启动docker中镜像的容器？
linux shell 自动输入y/yes
qq_27683941: scp 貌似不行 [code=plain] [alg@cdh601 python3]$ echo yes | scp train_cpu.py ${user_name}@${worker}:~/ The authenticity of host '192.168.2.202 (192.168.2.202)' can't be established. ECDSA key fingerprint is SHA256:+bs9ihoJmNCG5n1jwTKYHH49bc5dR9ww691oHHYJlp4. ECDSA key fingerprint is MD5:9c:1d:42:af:06:04:94:35:24:08:76:89:88:31:a1:43. Are you sure you want to continue connecting (yes/no)? [/code]
0-1背包：使用滚动数组时为何要逆序枚举
LAter.Charon: 正序的话可能导致一个东西被多次放入背包！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

kangwq2017 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。