Pycharm配置hadoop+spark环境（windows篇）

最新推荐文章于 2023-05-26 22:07:17 发布

VIP文章 weixin_34221775

最新推荐文章于 2023-05-26 22:07:17 发布

阅读量2.7k

点赞数 2

文章标签：大数据开发工具 python

原文链接：https://my.oschina.net/u/2996334/blog/1632172

版权

2019独角兽企业重金招聘Python工程师标准>>>

　　首先，安装好pycharm和anaconda（这里使用anaconda2为例）。接着，下载对应版本的hadoop和spark平台并进行配置。

在这里，我们将hadoop解压到：D:\hadoop-2.7.2test

然后将spark解压到：D:\spark-2.0.0-hadoop2.7

　　1、在win下的配置与linux下不同，主要在于配置cmd脚本。想省心的同学可以直接下载我配置好的版本，链接见文末。

　　在spark的conf那新增spark-env.cmd文件并编辑如下：

set HADOOP_HOME=D:\hadoop-2.7.2test
set HADOOP_CONF_DIR=D:\hadoop-2.7.2test\etc\hadoop
set SPARK_YARN_USER_ENV=

最低0.47元/天解锁文章

优惠劵

weixin_34221775

关注关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Pycharm配置hadoop+spark环境（windows篇）

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

Pycharm配置hadoop+spark环境（windows篇）-附件资源

03-02

Pycharm配置hadoop+spark环境（windows篇）-附件资源

winpythonhadoop_Hadoop安装-Spark Windows 环境 pycharm开发环境搭建

weixin_39671964的博客

12-08

208

1、下载版本对应的spark和hadoop，如下：2、配置Spark解压Spark并配置环境变量，新建环境变量如下：在Path中增加如下环境变量：3、配置hadoop相关变量，4、下载hadoop组件，并进行配置(winutils)将下载好的组件解压放到hadoop_home的bin目录下，不进行文件替换5、验证是否安装成功，打开cmd执行pyspark，成功如下：6、配置pycharm，安装p...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop基础知识-02

weixin_52583817的博客

05-26

288

hadoop基础知识

windows系统下pycharm远程访问linux系统下jupyter notebook，并调用spark平台（三）-hadoop平台搭建

lyn5284767的专栏

12-19

514

一，安装jdk 创建目录输入：mkdir /usr/lib/jvm 拷贝下载好的jdk放入解压修改环境变量在文件最后加入： export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_171 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=$JAVA_HOME/lib:$CLASSPATH ...

winpythonhadoop_Python pycharm（windows版本）部署spark环境

weixin_39907939的博客

12-17

134

参考博文：https://www.cnblogs.com/nucdy/p/6776187.html一、部署本地spark环境1.下载并安装好jdk1.8，配置完环境变量。2.Spark环境变量配置下载：http://spark.apache.org/downloads.html我下载的是spark-2.3.0-bin-hadoop2.7.tgz,spark版本是2.3，对应的hadoop版本是2...

windows下安装pyspark及pycharm配置最完整详细教程

热门推荐

qq_52491380的博客

10-15

2万+

一、安装jdk1.8 1.jdk下载首先要保证电脑上安装了jdk，这里下载jdk1.8，可以去官网下载，也可以使用我分享的文件链接：https://pan.baidu.com/s/1MErkVhORho7tp3Eg97a9Aw 提取码：1234 下载后完成后全部无脑下一步就行，不用修改安装路径，占不了多少c盘空间。 2.环境变量配置从1.8版本开始会默认在path中添加环境变量在cmd中输入以下命令可以正常显示版本就没有问题这里可以在配置一个JAVA_HOME 环境变量配置的具体步骤如下我的

pycharm关联hadoop开发

qq_49824182的博客

10-12

2157

pycharm关联hadoop项目开发

Windows下Pycharm的Spark、Hadoop、Scala安装及常见报错（graphframes避坑、jupyter的文件位置更换、conda环境建立）

soberld的博客

07-24

2240

环境 jdk1.8.0_333 python3.7.13 scala2.11.8 hadoop2.7.1 spark2.4.3-bin-hadoop2.7

spark 一步一步走

wtljiayou的专栏

11-26

1785

spark win7 安装直接下载 spark在选择 package type 的时候请选择包含hadoop的预编译包，不然在cmd执行spark-shell的时候就会出现这样的错误： Failed to find Spark assembly JAR. You need to build Spark before running this program

Hadoop集群（第7期）_Eclipse开发环境设置

weixin_34365635的博客

05-20

353

1、Hadoop开发环境简介 1.1 Hadoop集群简介　　Java版本：jdk-6u31-linux-i586.bin 　　Linux系统：CentOS6.0 　　Hadoop版本：hadoop-1.0.0.tar.gz 1.2 Windows开发简介　　Java版本：jdk-6u31-windows-i586.exe 　　Win系统：Windows 7 旗舰版　　Ec...

大数据单机学习环境搭建(10)Pycharm中操作spark和hive

LMTX069的博客

05-20

2479

目录1.环境准备2.Pycharm连接Hive3.Pycharm执行py脚本3.1SparkSql操作数据的方式3.2一个完整的pyspark脚本 1.环境准备需要提前准备Hadoop、Hive、Spark和Anaconda，以及Pycharm连接Linux的Anaconda环境，具体见本人如下相关文章。 Hadoop本地单节点安装 Linux使用yum安装Mysql Hive单节点安装和启用 Spark单节点安装与pyspark使用 Linux单节点Anaconda安装和Pycharm连接另外，还可以

Python+Spark+Hadoop大数据基于用户画像电影推荐系统设计

最新发布

11-01

程序开发软件： Pycharm + Python3.7 + Django网站 + pyspark大数据分析 + Hadoop平台数据库： Mysql5.6，Redis 本系统是以Django作为基础框架，采用MTV模式，数据库使用MySQL和Redis，以从豆瓣平台爬取的电影...

Hadoop 分布式集群环境搭建与配置

beautiful_huang的博客

12-09

376

文章目录一、hadoop 简介基于hadoop的整体分布式模块交互1）分布式系统的定义2）核心内容：文件的目录结构独立存储在一个NameNode上，二具体文件数据，拆分成若干块，冗余的存放在不基于Hadoop的HDFShadoop：HDFS：准备工作：二、安装一、hadoop 简介基于hadoop的整体分布式模块交互 1）分布式系统的定义把数据放到一个服务器集群上面，分为：主控服务器（Mas...

spark hadoop版本_PyCharm搭建Spark开发环境的实现步骤

weixin_39941732的博客

01-21

155

PyCharm搭建Spark开发环境的实现步骤1.安装好JDK下载并安装好jdk-12.0.1_windows-x64_bin.exe，配置环境变量：新建系统变量JAVA_HOME，值为Java安装路径新建系统变量CLASSPATH，值为 .;%JAVA_HOME%libdt.jar;%JAVA_HOME%libools.jar;(注意最前面的圆点)配置系统变量PATH，添加 %JAVA_HOME...

大数据-玩转数据-windows下python开发spark(pycharm)环境搭建

s_unbo的博客

12-31

1096

大数据-玩转数据-python开发spark(pycharm)环境搭建说明：需要在windows系统下开发spark程序，然后迁移程序到linux生产环境运行。 1.安装好JDK 下载并安装 jdk-17_windows-x64_bin.exe 配置环境变量： JAVA_HOME，值为Java安装路径 C:\Program Files\Java\jdk-17.0.1; 系统变量CLASSPATH .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意

sql 语句优化实战

qq_43192537的博客

08-22

1314

sql 语句优化实战

大数据分析学习第五课使用pycharm开发hdfs的基本功能-增删改查

猫头鹰数据的专栏

03-25

1984

在上节第四课中，我们介绍了使用java编程工具idea创建一个maven项目，来操作hadoop集群上的文件，这节我们介绍下怎么使用python开发工具pycharm来读、写和上传文件。我们介绍这2种方式的原因是，通过hadoop hive或spark等数据计算框架完成数据清洗后的数据是存储在HDFS上的，而爬虫和机器学习等程序在Python或java中容易实现，在Linux环境下编写Python或java程序没有那么便利，所以我们需要建立Python，Java与HDFS的读写通道。首先，我们启

Pycharm(Linux系统)配置Python Spark（导入pyspark）

05-24

以下是在Linux系统上配置Pycharm中使用Python Spark的步骤： 1. 安装Java和Spark：首先需要安装Java和Spark。如果您已经安装了它们，请跳过此步骤。如果没有安装，请执行以下命令： ``` sudo apt-get update sudo apt-get install openjdk-8-jdk wget https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz tar -xvf spark-3.1.1-bin-hadoop3.2.tgz ``` 2. 配置环境变量：为了在Pycharm中使用Spark，需要将Spark的路径添加到您的环境变量中。在终端中运行以下命令： ``` export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` 其中，`/path/to/spark` 是Spark的安装路径。如果您的Spark位于`/usr/local/spark`，则可以使用以下命令： ``` export SPARK_HOME=/usr/local/spark export PATH=$SPARK_HOME/bin:$PATH ``` 为了方便，您可以将这些命令添加到您的`.bashrc`文件中。 3. 安装PySpark：在Pycharm中使用Spark需要安装PySpark。您可以使用以下命令安装： ``` pip install pyspark ``` 4. 配置Pycharm：打开Pycharm并创建一个新项目。在项目设置中，选择Python解释器并确保已选择正确的Python版本。然后，单击“添加”按钮并添加以下行： ``` PYSPARK_PYTHON=/usr/bin/python3 PYSPARK_DRIVER_PYTHON=python3 ``` 然后，单击“环境变量”选项卡并添加以下行： ``` SPARK_HOME=/path/to/spark ``` 其中，`/path/to/spark` 是Spark的安装路径。如果您的Spark位于`/usr/local/spark`，则可以使用以下行： ``` SPARK_HOME=/usr/local/spark ``` 5. 导入pyspark：在Pycharm中导入pyspark非常简单。只需在项目中创建一个Python文件并添加以下代码： ``` from pyspark import SparkContext sc = SparkContext("local", "First App") ``` 这将创建一个本地Spark上下文并打印出一条消息。您可以运行此代码以确保一切正常。希望这些步骤能够帮助您在Linux系统上配置Pycharm中使用Python Spark。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交