eclipse + pydev + spark + hadoop

最新推荐文章于 2022-11-11 11:53:49 发布

置顶 henry860916

最新推荐文章于 2022-11-11 11:53:49 发布

阅读量1.1k

点赞数

分类专栏： Spark Hadoop 文章标签： spark hadoop pydev eclipse python

本文链接：https://blog.csdn.net/henry860916/article/details/72676943

版权

11 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

1. java 安装

jdk我选择linux x86版本gz

注意安装好后，需要更新/usr/bin/java 软连接为解压后的java

java -version要显示下载后的版本号

2. eclipse 安装

我选择JaveEE版本32位

3. pydev安装

参考如下链接完成与eclipse的集成配置

4. 运行eclipse，执行基本python程序

import sys
print(sys.path)

5. 成功后，再开始与spark集成

其实 saprk的environment 不需要配置，只需要添加 spark下面python目录下的libraries就行了

pyspark.zip 和 py4j*.zip 以及 spark/python目录本身

from pyspark import SparkContext
sc = SparkContext()
lines = sc.textFile("hdfs://192.168.0.1:9000/homedir/README.md")
print(lines.count())

此时，eclipse上可以使用python语言，调用spark代码，处理hadoop集群上的文件数据了

关注

专栏目录