hadoop 集群上:
新建文件 sudo -u hdfs hadoop fs -mkdir /ctrp/test
修改权限
修改文件拥有者 sudo -u hdfs hadoop fs -chown hdfs:supergroup /ctrp/test
删除目录:sudo -u hdfs hadoop fs -rm -r /ctrp/marq/clk
服务器本地上:
新建文件:mkdir 文件(在响应路径下)
修改(读写执行)权限:chmod 777 文件注:数字 4 、2 和 1表示读、写、执行权限
rwx (可读写运行) 权限则将该权限位 设置 为 4 + 2 + 1 = 7
rw- (可读写不可运行)权限则将该权限位 设置 为 4 + 2 = 6
r-x (可读可运行不可写)权限则将该权限位 设置 为 4 +1 = 5修改文件拥有者:chown
spark-submit 提交python外部依赖包压缩文件打包成.zip或者 .egg文件,这样spark-submit中的py-files才能使用上传:
压缩文件:zip -r spark_submit.zip spark_submit.py
pyspark上保存成hdfs文件的几种方式:
在pyspark中操作hdfs文件
1.当我的数据是rdd格式的
rdd.saveAsTextFile(‘path_name’)
或者:
rdd.repartition(1).saveAsTextFile(‘path_name’) #表示将数据拉到一个分区,emmmm话说我一直不知道为什么要拉到一个分区,这样不会导致某个内存爆掉嘛
2.当我的数据是pyspark的dataframe(直接hiveContext(sc).sql(slect语句))出来的就是这这种类型
df.coalesce(1).write.csv(‘path_name’) #df.coalesce(1)表示合并成一个csv