![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据处理
文章平均质量分 79
随机???
SDE
展开
-
spark job 使用定制python环境 + 上传额外环境的方法
spark 上传额外的文件的方法当pyspark 运行在cluster mode下的时候 driver不能直接获取到client上的文件 所以要把一些文件上传上去 pyspark_submmit 在提交的时候有三个参数和上传文件相关上传压缩文件例如--archives ./py_276_cityhash_env.zip#HashEnvDir这个参数的意思是 将压缩包 zip文件分发到...原创 2019-12-27 18:51:03 · 553 阅读 · 0 评论 -
hdfs yarn kill 任务
hdfs kill 任务先说结论hdfs 上的hadoop 任务 直接在终端ctrl+C是不行的 任务一旦提交到集群上 就会继续 运行所以应该使用yarn application -kill application_1571706429831_129599 这个命令来kill job起因使用hadoop distcp 提交了一个拷贝任务 中途用ctrl+c取消了 然后去删除拷贝了一...原创 2019-12-26 11:44:32 · 489 阅读 · 0 评论 -
pyspark RDD 的介绍和基本操作
pyspark RDD 的介绍和基本操作RDD介绍虽然现在pyspark已经支持了DataFrame 但是有的时候不得不用一下RDD但是 官方文档很多地方说的不明不白 所以自己做了实验在这里总结一下。RDD是用位置来做映射的 可以看做是一个大号的python list 区别在于他是被分布式存储 不是python中的list 是单机存储的 里面装的全是 单个元素或者元组(元素大于等于2的元...原创 2019-12-20 18:56:19 · 724 阅读 · 0 评论