Spark的坑--Spark新手必看--Python Spark必读,耗费了我近三周的时间

from pyspark import SparkContext, SparkConf
import os
from tqdm import tqdm

from utils2 import convert_date_2_chenyings_format

os.environ['HADOOP_HOME'] = 'D:\software\spark\winutils\hadoop-common-2.2.0-bin'  # winutils.exe,hadoop的坑

os.environ["PYSPARK_PYTHON"] = "/Users/user/Python_Source/venv/python3.7"  # 集群上期望运行的Python的版本

conf = SparkConf().setAppName('AppName').setMaster('spark://0.0.0.0:7077')  # 局域网IP
sc = SparkContext(conf=conf)

# 把本地的.py文件导入集群
for f in tqdm(os.listdir()):
    if f.find('.py') != -1:
        sc.addPyFile(f)

# 测一下
data = [1, 2, 3, 4, 5]
data2 = {1: '1s', 2: '2s', 3: '3s'}
distData = sc.parallelize(data)
distData.collect()

date_test = distData.map(lambda k: k + 1)
date_test.collect()

date_test = distData.map(lambda k: k)  # 可以写你自己的Py文件
date_test.collect()

sc.stop()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值