Spark-windows安装

 

 

 

Spark

 

目的:达到能在pycharm中测试

1.安装必要的文件:

JDK

AnaConda

spark

hadoop

jdk测试:java -version

Anaconda测试: 打开Anaconda Prompt输入conda list

spark测试(注意spark的安装路径不能有空格):spark-shell

2.配置环境变量

 

3.打开pycharm测试

import os
from pyspark import SparkConf, SparkContext
os.environ['JAVA_HOME']='G:\Program Files\Java\jdk1.8.0_181'
conf = SparkConf().setMaster('local[*]').setAppName('word_count')
sc = SparkContext(conf=conf)
d = ['a b c d', 'b c d e', 'c d e f']
d_rdd = sc.parallelize(d)
rdd_res = d_rdd.flatMap(lambda x: x.split(' ')).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
print(rdd_res)
print(rdd_res.collect())

 

运行结果:

G:\ProgramData\Anaconda3\python.exe "H:/1.study/资料(1)/机器学习2/Maching Learning_2/chapter13/spark_test.py"
19/07/18 17:12:13 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
PythonRDD[5] at RDD at PythonRDD.scala:53
[('a', 1), ('e', 2), ('b', 2), ('c', 3), ('d', 3), ('f', 1)]
​
Process finished with exit code 0

利用spark求圆周率代码

 
 
import random
import os
from pyspark import SparkConf, SparkContext
os.environ['JAVA_HOME']='G:\Program Files\Java\jdk1.8.0_181'
conf = SparkConf().setMaster('local[*]').setAppName('word_count')
sc = SparkContext(conf=conf)
NUM_SAMPLES = 100000def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1
​
count = sc.parallelize(range(0, NUM_SAMPLES)).filter(inside).count()
print("π粗糙的值: %f" % (4.0 * count / NUM_SAMPLES))

得到结果:

[Stage 0:============================================>              (6 + 2) / 8]
 π粗糙的值: 3.129680

转载于:https://www.cnblogs.com/TimVerion/p/11211046.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
安装SparkWindows系统上可能会遇到一些问题。首先,确保你已经正确安装Spark及其相关软件。你可以参考引用中提到的大佬的博客来获取更详细的安装指南。 在Windows系统上运行Spark,你需要完成以下几个步骤: 1. 在cmd中进行运行。打开cmd窗口,执行"hdfs namenode -format"命令来格式化HDFS。然后切换到Hadoop的sbin目录,执行"start-all.cmd"命令来启动相关进程。这将会打开四个新的窗口,每个窗口都是一个运行状态的进程。你可以参考引用中提到的大佬的博客中的图示来更好地理解这个过程。 2. 如果在运行时遇到了"sc未定义"的错误,这意味着你需要在你的测试代码中添加一些代码来定义SparkContext。你可以将以下代码复制到你的测试代码中: from pyspark import SparkContext from pyspark import SparkConf conf = SparkConf().setAppName("test") sc = SparkContext(conf=conf) 这样,你就可以通过"sc"来访问SparkContext对象了。这将帮助你在Windows系统上成功运行Spark。你可以参考引用中的代码示例。 希望以上信息对你有所帮助!如果你还有其他问题,请随时提问。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [windows10环境安装spark-3.0.3-bin-hadoop2.7](https://blog.csdn.net/TF666666/article/details/120039951)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值