权限操作

hadoop 集群上:

新建文件 sudo -u hdfs hadoop fs -mkdir /ctrp/test
修改权限
修改文件拥有者 sudo -u hdfs hadoop fs -chown hdfs:supergroup /ctrp/test
删除目录:sudo -u hdfs hadoop fs -rm -r /ctrp/marq/clk
服务器本地上:
新建文件:mkdir 文件(在响应路径下)
修改(读写执行)权限:chmod 777 文件

注:数字 4 、2 和 1表示读、写、执行权限
rwx (可读写运行) 权限则将该权限位 设置 为 4 + 2 + 1 = 7
rw- (可读写不可运行)权限则将该权限位 设置 为 4 + 2 = 6
r-x (可读可运行不可写)权限则将该权限位 设置 为 4 +1 = 5

修改文件拥有者:chown
spark-submit 提交python外部依赖包

压缩文件打包成.zip或者 .egg文件,这样spark-submit中的py-files才能使用上传:
压缩文件:zip -r spark_submit.zip spark_submit.py

pyspark上保存成hdfs文件的几种方式:
在pyspark中操作hdfs文件

1.当我的数据是rdd格式的
rdd.saveAsTextFile(‘path_name’)
或者:
rdd.repartition(1).saveAsTextFile(‘path_name’) #表示将数据拉到一个分区,emmmm话说我一直不知道为什么要拉到一个分区,这样不会导致某个内存爆掉嘛

2.当我的数据是pyspark的dataframe(直接hiveContext(sc).sql(slect语句))出来的就是这这种类型
df.coalesce(1).write.csv(‘path_name’) #df.coalesce(1)表示合并成一个csv

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值