Spark介绍
Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark和Hadoop的关系是,Hadoop的MapReduce是大家广为熟知的计算框架,而Spark则是一种新的计算框架。
Windows上python的spark环境搭建
一:python环境的安装(如果已经安装可以跳过,但是注意环境变量的配置)
python的jdk安装:
1、安装前选择add to path, 自动添加到环境变量。
2、win+r,进入cmd窗口,输入python,出现python界面并出现版本
3、以上两种情况,说明python的jdk安装成功
或Anoconda的安装:3.8.3
1、下载安装 一路到底
下载镜像地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/
安装:一路到底。
注意:在安装时候注意安装路径要记录下来,方便配置环境变量使用
C:\Users\HP\miniconda3
2添加环境变量:
在系统环境变量中,添加如下配置
C:\Users\HP\miniconda3\Library\bin
C:\Users\HP\miniconda3\Scripts
C:\Users\HP\miniconda3
3、进入win+R,输入cmd
进入cmd命令窗口,输入 conda -V 查看 conda版本
进入cmd命令窗口,输入 python 进入python程序界面,并显示python版本。---输入 eixt() 退出。
以上两个出现,则说明安装成功
二:Java与hadoop环境的安装
1.安装好JDK
下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量: