eclipse + pydev + spark + hadoop

11 篇文章 0 订阅

1. java 安装

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

jdk我选择linux x86版本gz

注意安装好后,需要更新/usr/bin/java 软连接为解压后的java

java -version要显示下载后的版本号

2. eclipse 安装

https://www.eclipse.org/downloads/eclipse-packages/

我选择JaveEE版本32位

3. pydev安装

http://www.pydev.org/download.html

参考如下链接完成与eclipse的集成配置

http://www.pydev.org/manual_101_root.html

4. 运行eclipse,执行基本python程序

import sys
print(sys.path)

 

5. 成功后,再开始与spark集成

https://enahwe.wordpress.com/category/spark/#Configure_PyDev_with_Spark_variables

其实 saprk的environment 不需要配置,只需要添加 spark下面python目录下的libraries就行了

pyspark.zip 和 py4j*.zip 以及 spark/python目录本身

from pyspark import SparkContext
sc = SparkContext()
lines = sc.textFile("hdfs://192.168.0.1:9000/homedir/README.md")
print(lines.count())

此时,eclipse上可以使用python语言,调用spark代码,处理hadoop集群上的文件数据了

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值