从无到有的搭建pyspark环境(windows10)

4 篇文章 1 订阅
2 篇文章 0 订阅

欢迎来到广志大兄弟吹牛逼的博客,一个小菜菜,自主摸索一些条条框框,看看大佬们的行业方向。自我有点小成绩,就拿出来秀一秀。废话不多说,尽情欣赏正文~

下载安装所需文件

需要准备的内容大体如下:

  • java环境
  • python环境
  • hadoop环境在本机上
  • spark环境

以上内容都是安装在windows上的,并且为单实例单节点的开发环境。如果需要上linux上,请自行查找资料如何配置环境。

安装java环境

别的我不废话,因为很简单,如果已经安装好了,配置好了环境变量,请跳过这一步。但是要注意一点,安装的java环境JAVA_HOME路径不能带有空格。
至于为什么?请自行脑补你遇到从没看到过的ERROR的情绪状态和处理方式。

  1. 下载地址点击这里下载 选择对应你windows 进行下载,一般都是64位的;
  2. 安装,傻瓜式安装,只不过要注意安装过程中选择安装路径。默认会让你安装到一个叫Program Files的位置,注意这里是有空格的,推荐创建一个没有空格的目录(有的人喜欢叫它文件夹);
  3. 配置环境变量,环境变量这个东西理解就是linux中的profile,他能提供全局的命令使用。至于怎么配置,已经被好多大佬写成了傻瓜的不能再傻瓜的操作了。具体操作我会贴出一篇文章链接,在没有贴出来之前,请自行搜索。
  4. 测试,以上内容安装好了,打开命令行(windows+R__cmd)输入java -version,返回的结果中显示你安装的java版本就说明已经成功安装了java环境;

安装python环境

注意敲黑板划重点我们这里介绍的是spark1.6.0版本安装,这个版本的是不支持python3.5.X版本以下的版本的。so,我们此次安装的python版本为3.5.6

python的版本安装其实有很多种方法,去官网下载傻瓜式操作安装、使用源码安装、使用编程工具下载安装。我们今天说的是一个比较厉(niu)害(bi)的安装方法:使用anaconda安装

anaconda能提供多个环境的python,且互相之间可以随意切换。能让你的电脑中存在多个python环境,想要用那个就让那个生效。不仅提供了编程环境,附带的还有一些编程工具,比较强大的就是Jupyter,提供列斯python notebook的编程工具,能让我们来做页面编程。

说说如何安装anaconda?别闹了,我怕有人打我,说这也用教?那我就简单说一下
网络下载–傻瓜安装
只需要你点点点,就能安装成功了。
安装完成之后,打开anaconda navigator的应用程序,能看到你当前安装默认的python环境。

-广志在这里小坑你一下,上面给出的下载链接,安装的环境都不是我们想要的,而且这个环境是默认生效的。也就是说,它直接替换了你电脑上原来安装的任何python环境,不过不用担心。我们既然无法接受就改变他。
打开命令行windows + R

  1. 输入
conda info -e   # 查看当前安装的python环境

# conda environments:
#
base * D:\ProgramData\Anaconda3

显示的内容如上(路径是广志电脑上的安装路径)

  1. 输入
#创建一个名为py35的环境(英文名字可以随便起,写上你女神的名字都没问题),指定Python版本是3.5(不用管是3.5.x,conda会为我们自动寻找3.5.x中的最新版本)
conda create --name py35 python=3.5

会自动显示一堆下载进度

  1. 再次执行步骤1的操作,就可以看到两条记录,说明已经有两个环境在我们的机器中了,但是有个*标识了现在生效的环境。我们需要将环境切换为我们当前安装的py35
conda activate py35
  1. 然后通过命令查询就会发现已经激活了你的排映35
 conda info -e # 查看anaconda环境中激活的python环境

python -V # 查看当前电脑中的python环境
  1. 多说一句,如果手抖安装错了python环境,但是他已经在那了,如何删除这个不想要碍眼东东呢?
conda remove --name python34 --all  #删除一个已有环境

安装hadoop

1. 首先是下载hadoop2.6.0安装包,这里点击就可以下载。

2. 下载之后进行解压到一个目录中

3. 推荐目录的地址中也没有空格。

使用解压工具就可以解压,推荐360解压在关掉一些全家桶的提示之后,用起来很顺畅。就是有的时候解压7z的文件有点慢。推荐目录的地址中也没有空格。使用解压工具就可以解压,推荐360解压在关掉一些全家桶的提示之后,用起来很顺畅。就是有的时候解压7z的文件有点慢。

4. 然后要下载binaries文件

(这里给出的是github地址),这个类似于只适用于windows的编译文件。还别说,没这个还真不行。可以自己编译(这里给出的是github地址),这个类似于只适用于windows的编译文件。还别说,没这个还真不行。可以自己编译

5. 东西都放好了之后,又要去指定环境变量了

HADOOP_HOME:D:\Soft\hadoop-2.7.6
PATH里面添加上:;%HADOOP_HOME%\bin;

6. 检验hadoop 环境是否正确

hadoop version 

返回显示的内容能正常显示hadoop版本。说明环境变量生效。

7. 修改hadoop配置,设置为单机模式。

7.1) core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/D:/Soft/hadoop-2.6.0/workplace/tmp</value>
<description>namenode上本地的hadoop临时文件夹</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
<description>HDFS的URI,文件系统://namenode标识:端口号</description>
</property>
<configuration>
7.2) hdfs-site.xml
<configuration>
<!-- 这个参数设置为1,因为是单机版hadoop -->
<property>
<name>dfs.replication</name>
<value>1</value>
<description>副本个数,配置默认是3,应小于datanode机器数量</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/D:/Soft/hadoop-2.7.6/workplace/data</value>
<description>datanode上数据块的物理存储位置</description>
</property>
<property>
<name>dfs.name.dir</name>
<value>/D:/Soft/hadoop-2.7.6/workplace/name</value>
<description>namenode上存储hdfs名字空间元数据 </description>
</property>
</configuration>
7.3) mapred-site.xml
<--没有就将mapred-site.xml.template重命名为mapred-site.xml-->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://localhost:9001</value>
</property>
</configuration>
7.4) yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
7.5) hadoop-env.cmd
#文件中要指定JAVA_HOME,推荐使用绝对路径
JAVA_HOME=C:\java\jdk1.8.0_171

8 替换bin文件

将我们步骤4中下载的bin文件替换掉原有解压在bin目录的文件

9 打开命令行执行命令,格式化主节点

hdfs namenode -format

如果多次格式化,会让你选择Y或者N,确认你是否真的要格式化。正常Y就可以

10 启动hadoop

# 进入hadoop的sbin目录中
start-all.cmd

页面中会啪啪啪啪 跳出来四个命令行窗口,千万别关。
这是正在启动相关的进程
点击以下两个网址验证了hadoop配置成功
资源管理页面
节点管理页面

安装Spark

【未完待续】

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要在Windows上搭建Pyspark环境并连接Hive,需要按照以下步骤进行操作: 1. 安装Java环境Pyspark需要Java环境的支持,因此需要先安装Java环境。 2. 下载Pyspark:从官网下载Pyspark,并解压到本地目录。 3. 配置环境变量:将Pyspark的bin目录添加到系统环境变量中。 4. 安装Hadoop和Hive:Pyspark需要Hadoop和Hive的支持,因此需要先安装Hadoop和Hive。 5. 配置Hive:在Hive的配置文件中,需要将Hive的JDBC驱动程序添加到CLASSPATH中。 6. 启动Pyspark:在命令行中输入pyspark命令,启动Pyspark。 7. 连接Hive:在Pyspark中使用SparkSession连接Hive,可以使用以下代码: ``` from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("HiveExample") \ .config("spark.sql.warehouse.dir", "/user/hive/warehouse") \ .enableHiveSupport() \ .getOrCreate() spark.sql("SELECT * FROM table_name").show() ``` 其中,table_name是Hive中的表名,可以根据实际情况进行修改。 以上就是在Windows上搭建Pyspark环境并连接Hive的步骤。 ### 回答2: 在Windows上搭建Pyspark环境,同时连接Hive是一个比较普遍的需求,下面我们来讲一下具体的操作步骤。 1. 安装Java环境 Pyspark需要Java支持,因此需要先安装Java运行环境。在Windows上,可以在官网上下载Java的安装包,然后进行安装。 2. 下载并安装Anaconda Anaconda是用于Python科学计算的包管理工具,可以很方便地安装Python的各种科学计算包,同时也支持Jupyter Notebooks等交互式开发工具。在Windows上,可以从官网下载并安装Anaconda。 3. 安装Pyspark 在Anaconda中打开终端,运行以下命令来安装Pyspark。 ``` conda install pyspark ``` 这样就可以在Anaconda中使用Pyspark了。 4. 配置Hadoop和Hive环境 在Windows上搭建Hadoop和Hive环境比较麻烦,因此推荐使用Cloudera QuickStart虚拟机来配置Hadoop和Hive环境。可以在官网上下载并安装虚拟机,然后运行虚拟机中的Hadoop和Hive服务。 5. 配置Pyspark连接Hive 在Anaconda中打开终端,输入以下命令进行配置。 ``` import findspark findspark.init() from pyspark.sql import SparkSession spark = SparkSession.builder.appName("myApp").config("hive.metastore.uris", "thrift://quickstart.cloudera:9083").enableHiveSupport().getOrCreate() ``` 其中,`hive.metastore.uris`配置了Hive的元数据存储地址,需要根据实际情况进行修改。 6. 测试连接 输入以下命令进行测试。 ``` spark.sql("show databases").show() ``` 如果能够正常输出Hive中的数据库信息,则说明Pyspark已经成功连接到Hive。 到此为止,我们已经完成了在Windows上搭建Pyspark环境,并连接Hive的全部操作步骤。 ### 回答3: 在Windows上搭建pyspark环境并连接hive需要按照以下步骤进行: 一、安装Java 由于pyspark是基于Java开发的,因此我们需要先在电脑上安装Java才能运行pyspark。具体安装过程可以在官网上搜索Java安装程序进行下载。 二、安装Python和pip pyspark使用Python编写,因此我们需要在计算机上安装Python才能运行pyspark。我们可以从Python官网上下载最新版本的Python,同时也需要安装pip,可以使用以下命令进行安装: ``` python get-pip.py ``` 三、安装pyspark 在安装Python和pip后,我们可以通过pip安装pyspark,运行以下命令: ``` pip install pyspark ``` 在安装完成后,我们需要设置一些环境变量。我们需要将pyspark添加到系统路径中,可以使用以下命令: ``` setx PYSPARK_PYTHON python setx PYSPARK_DRIVER_PYTHON jupyter setx PATH %PATH%;C:\Users\username\Downloads\spark-2.2.1-bin-hadoop2.7\bin ``` 这里需要将`username`替换为你自己的用户名。 四、连接hive 为了连接hive,我们需要在pyspark中安装相关的依赖包。打开pyspark后,我们可以在控制台中运行以下代码: ``` from pyspark.sql import SparkSession spark = SparkSession.builder.appName("hive").enableHiveSupport().getOrCreate() spark.sql("show tables").show() ``` 这里我们使用SparkSession创建一个名为“hive”的应用,并启用Hive支持。接下来我们可以使用`spark.sql()`函数来运行SQL查询,例如,我们可以使用以下命令查询所有的表: ``` spark.sql("show tables").show() ``` 以上就是在Windows上搭建pyspark环境,并连接hive的步骤。在这个过程中,我们需要了解Java、Python和pyspark的基本操作,同时也需要熟悉在Windows系统上设置环境变量的方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值