linux安装pyspark_pyspark学习笔记——安装篇

最新推荐文章于 2024-06-19 21:13:22 发布

weixin_39945915

最新推荐文章于 2024-06-19 21:13:22 发布

阅读量793

点赞数

文章标签： linux安装pyspark

本文链接：https://blog.csdn.net/weixin_39945915/article/details/112381416

版权

本文档详细介绍了如何在Linux环境下安装PySpark。首先确保已安装Java和Hadoop，接着安装Scala，解压并配置环境变量。然后下载与Hadoop版本兼容的Spark，同样解压并配置环境变量。同时，安装Anaconda并创建工作目录。通过终端启动HDFS，并检查Spark的配置。最后，提到了使用Jupyter Notebook与Scala集成的步骤。

摘要由CSDN通过智能技术生成

家里用的单机hadoop，公式用的集群hadoop，此安装基于家里的笔记本。

所以java，hadoop都已经是可以用的。

1。scala语言

spark是以scala语言开发的，所以必须安装scala。

去官网下载tgz包。我这里选择的是2.11.6版本。（windows可以复制下载链接到迅雷，这样会比较快）

然后把tgz包放到你的linux用户目录下。

然后解压,生成不带tgz后缀的文件

tar xvf scala-2.11.6.tgz

把该文件放到一个地方，我这里是放到hadoop相同的local目录下

sudo mv scala-2.11.6 /usr/local/scala

编辑环境变量

vi ~/.bashrc

写入下列保存并source 使其生效

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin

然后在shell里运行scala就能进入scala编译模式

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39945915

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Linux 安装 pySpark

JanLEE

01-23

772

1、安装Java和Scale。 1.1、Java 参考 Java 安装运行 1.2、Scale安装 1）下载并解压官网地址：https://www.scala-lang.org/download/ wget https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz tar -zxvf scala-2.13.1.tgz mv scala-2.13.1 scala 2）配置 vim /etc/profile SCALA_HOME=/

Docker 化部署 Apache Spark

程序员光剑

08-06

889

15年7月，Apache基金会宣布开源了Spark项目，这标志着基于内存计算的大数据处理技术进入了一个全新的阶段。由于Spark的分布式架构特性，使其具有极高的可扩展性和容错性。因此，越来越多的公司、组织和个人开始使用Spark作为分析平台进行大数据的分析处理。同时，Spark也已经成为开源领域里非常流行的一个项目。在生产环境中，部署Spark的方式通常采用集群部署模式，即将集群中的各个节点配置成一个整体，形成统一的计算资源池。这种方式的优点是简单、灵活，能够适应各种业务场景；

参与评论您还未登录，请先登录后发表或查看评论

PySpark安装与使用

热门推荐

js010111的博客

01-30

1万+

Linux服务器下PySpark环境安装一、JDK安装 1. 下载JDK安装包进入Java官网下载对应的JDK版本，建议下载较早的版本，可能出现不兼容的。这里选择下载jdk-8u321-linux-x64.tar，下载完毕适用Xftp7上传至服务器并解压。 tar -zxfv jdk-8u321-linux-x64.tar 2. 修改 `/etc/profile` 文件，添加环境变量配置信息。 vim /etc/profile 在文件末尾添加如下的配置信息 export JAVA_HO

Pyspark学习笔记1——配置环境并计算pi测试

yangbobor的博客

12-01

1462

Pyspark学习笔记（一）环境搭建在linux的CentOS 7.3中，首先要配置好JDK和python。 1.JDK和Python3配置 Jdk的下载地址，注意需要先点击同意条款的按钮。http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html $ wget https://down...

踩坑 | Win10+Anaconda3+Python3.7+Spyder4.0配置Pyspark

wangfancy1的博客

06-10

732

首先，如果你用Anaconda，根本不用装一堆JDK SCALA之类！（当然，如果你不用的话，有两点需要注意：环境变量不能有空格，拒绝装在Program Files中！jkd版本不要过高！）可能大多数人和我一一样，使用笔记本，一般是windows系统，但想学习spark，不想装Linux或虚拟机，其实windows也可以直接用spark，然后百度查询出很多spark在windows安装的教程，绝大多数是先让安装Java，然后是scala，接着是spark，最后还有Hadoop，还要注意Java和sca

Spark学习笔记#1-快速入门

Lauhoman的博客

07-13

2100

Spark学习笔记#1-快速入门之前我已经安装配置好了PySpark，这里就按照Spark官网上的Quick Start来快速入门。这篇文章就当是Spark官网Doc的一个翻译和测试记录。目录使用Spark Shell进行交互式分析基本更多基于RDD的操作缓存独立的程序快速入门完之后的去向这个教程提供了一个使用Spark的快速教程。我们将会首先通过Spark的交互式Shell介绍AP

【数据训练师从入门到精通学习介绍】

qmaowu的博客

05-18

480

1、Python编程基础知识：介绍Python的基础语法、控制流、函数等概念。 2、数据结构和算法：介绍Python中的数据结构和算法，如列表、元组、字典、排序和搜索算法等。 3、数据科学基础：介绍数据科学的基础知识，如数据清洗、数据分析、数据可视化等。 4、人工智能和机器学习：介绍Python在人工智能和机器学习中的应用，包括神经网络、深度学习、自然语言处理等。 5、大数据和云计算：介绍Python在大数据和云计算领域的应用，如Hadoop、Spark等。

Linux 环境安装Pyspark

qq_65960840的博客

12-18

950

1.将下载好的安装包上传到linux系统中2.解压安装包按回车多次按空格，直到看到最后时候输入yes再次输入yes输入想要安装的路径，注意：最后一个anaconda3是安装时候自动创建的文件夹，所以要保证上一个目录下没有anaconda3这个文件夹。输入yes后，继续回车然后等待安装。安装完成。

pyspark系列2-linux安装pyspark

只是甲的博客

04-26

4946

文章目录一.安装Java和Scale1.1 安装java1.2 安装Scala1.2.1 安装1.2.2 配置1.2.3 启动二.安装Apache Spark三.pyspark案例参考: 一.安装Java和Scale 1.1 安装java 因为我这个环境是CDH 6.3.1版本，已经安装了JDK，此次略过。 [root@hp1 ~]# javac -version javac 1.8.0_181 1.2 安装Scala 1.2.1 安装代码: 官网地址：https://www.scala-lang.or

python 安装pyspark_PySpark笔记(一)：Spark简介与安装

weixin_42500631的博客

12-28

2210

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点；但不同MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好适用于数...

Linux下安装Python3&Pyspark

wsjslient的博客

04-13

988

安装目录查看本机已安装的Python下载Python安装包安装依赖环境安装gcc编译器安装zlib的解压缩类库解压Python安装包配置安装目录&编译源码并执行源码安装永久修改pip源pyspark安装查看本机已安装的Python #python -V也可查看 [root@sole ~]# python --version Python 2.7.5 下载Python安装包 Python版本下载安装依赖环境 [root@sole ~]# yum install openssl-devel

Linux系统下Spark的下载与安装（pyspark运行示例）

m0_55245520的博客

01-04

2143

最近需要完成数据课程的作业，因此实践了一下如何安装并配置好spark。

Ubuntu下安装PySpark

小小攻城狮

04-16

7114

1、PySpark的按照 2、Ipython notebook中使用PySpark

pyspark 安装配置【linux && win】

u011250186的博客

12-15

369

一、windows 安装 1、下载spark http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 环境变量 set SPARK_HOME=d:\spark2.3.1 set PATH=%SPARK_HOME%\bin;%PATH% 3、安装python的pyspark模块 pip install pyspark -i https://pyp...

在CentOS下升级PySpark使用Python 3.x

otie99的博客

02-21

4024

Linux与Oracle：从安装到实践的学习笔记

这篇学习笔记主要涵盖了从Linux基础到Oracle数据库在Linux环境中的应用。首先，笔记介绍了Linux的基本概念，Linux是一类开源的Unix操作系统，其核心称为Linux内核。Linux有许多不同的发行版，如Fedora Core、Debian...