![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 92
流年ln
这个作者很懒,什么都没留下…
展开
-
Linux下spark独立集群(单机)环境部署
如果你没有hadoop环境,先参考https://blog.csdn.net/admin_15082037343/article/details/107498074spark环境获取部署包官网下载spark的部署包,http://spark.apache.org/,笔者写这篇文章的时候,spark最新版本是3.0.0。上传到Linux服务器并解压配置环境变量vi /etc/profile# 将下面这两句加入环境变量,为了方便export SPARK_HOME=/opt/原创 2020-08-04 20:51:44 · 489 阅读 · 0 评论 -
如何在windows上搭建hadoop的客户端
一般情况,hadoop是集群运行在Linux上作为服务端,我们想使用命令行访问集群,就需要登录hadoop-master机器使用 hadoop fs -* 命令访问,感觉这样操作有点麻烦,所以我们在本地的windows上搭建一个hadoop的客户端,使用cmd命令访问集群。获取hadoop包最简单的方式就是直接将master上的hadoop包下载到本地配置环境变量# 新增HADOOP_HOME=D:\tools\hadoop\hadoop-3.2.1# PATH后面追加%HADOO原创 2020-07-28 10:42:09 · 1542 阅读 · 7 评论 -
Linux下搭建Hadoop伪分布环境
hadoop简单介绍Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop由以下三个模块组成:hdfs:可以简单理解为一个文件系统,就像windows那样,有文件和文件夹的区别。yarn:可以简单理解为计算机资源(CPU和内存)的调度系统。MapReduce:定义计算任务,定义完成后提交到yarn执行。hadoop伪分布式适用与开发、测试环境,只有一台虚拟机的情况。开发环境,一般由多台(至少三台)机器组成一个集原创 2020-07-21 21:17:45 · 532 阅读 · 0 评论 -
pyspark on yarn 出现 Cannot run program python
pyspark \ --master yarn \ --name shell \ --driver-cores 1 \ --driver-memory 512m \ --num-executors 1 \ --executor-cores 1 \ --executor-memory 512m \ --verbose 使用pyspark运行在yarn上的时候,错误如下Lost task 0.0 in stage 0.0 (TID 0, server, executor 1): java原创 2020-06-23 10:57:58 · 1290 阅读 · 0 评论