spark快速大数据分析之学习记录（四）

最新推荐文章于 2024-01-21 03:40:32 发布

KYkankankan

最新推荐文章于 2024-01-21 03:40:32 发布

阅读量265

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/KYkankankan/article/details/92753635

版权

7 篇文章 0 订阅

订阅专栏

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程

一、初始化SparkContext【基于python】

1.新建一个py文件，用于存放python脚本（备注：我在桌面建了一个文件夹py，主要用来存放python脚本）

shell命令：

sudo vim "test.py"

然后在test.py文本中输入以下程序：

from pyspark import SparkConf,SparkContext

conf=SparkConf().setMaster("local").setAppName("My App")
sc=SparkContext(conf=conf)

{

其中：

setMaster：用来指定spark如何连接到集群上，local为本地模式，是指让spark运行在单机单线程上而无需连接到集群

setAppName：用来设定应用名。本例中使用的是My App。当连接到一个集群时，这个值可以帮助你在集群管理器的用户界面中找到你的应用。（暂不太懂，文字取自《Spark快速大数据分析》

}

保存文件并退出，然后启动该程序。

shell命令：

cd /usr/lib/spark/spark-2.4.3-bin-hadoop2.7/    #进入spark目录

./bin/spark-submit /home/hadoop/桌面/py/test.py   #运行

运行截图：

二、运行examples中自带的wordcount.py

spark目录下有个examples文件夹，里面附带python编写的各类示例，如下图所示：

同样，通过shell命令来运行wordcount.py

shell命令：

./bin/spark-submit ./examples/src/main/python/wordcount.py README.md

运行截图：

关注