用pycharm + python写spark(spark-2.0.1-bin-hadoop2.6)

原创 2017年01月05日 11:05:04

一、将pyspark放入:
在pycharm看位置

该目录位置(我的是mac):
/Library/Python/2.7/site-packages

二、env配置:
步骤1:
配置env1
步骤2:
配置env2
步骤3:
配置env3
SPARK_CLASSPATH
/Users/Chaves/workspace/spark/hbase-0.98.3/lib/:/Users/Chaves/workspace/spark/spark-2.0.1-bin-hadoop2.6/lib/:

SPARK_HOME
/Users/Chaves/workspace/spark/spark-2.0.1-bin-hadoop2.6

更多其他pycharm 的详细设计见:http://blog.csdn.net/u013660881/article/details/46777415

三、运行命令:
1,spark 终端运行命令
如本机spark包位置
/Users/个人目录/workspace/spark/spark-2.0.1-bin-hadoop2.6/conf
spark-env.sh

2,修改SPARK_CLASSPATH
2.1,在以下spark的bin目录下运行:
/Users/个人目录/workspace/spark/spark-2.0.1-bin-hadoop2.6/bin

2.2,启动命令(./spark-submit –jars包)
./spark-submit —jars jar包地址 —py-files 工具包 算法文件地址 参数1 参数2 参数3 …nt

2.0与1.0的区别:

spark = SparkSession.builder.master("local").appName("pyspark2_0_1_test").getOrCreate()
sc = self.spark.sparkContext
hc = HiveContext(sc)

....

Spark+Python+Pycharm在Windows下的配置

初次学习在大数据平台下做数据分析和数据挖掘,之前主要是在MATLAB上在一些数据分析,虽然很熟悉了,然而受速度和方便程度的影响,毕竟还是不太方便做实时的、集群的、超大数据量的分析,因此决定放下用了6年...
  • ydq1206
  • ydq1206
  • 2016年07月16日 01:01
  • 8984

以hdfs上文件或者本地文件作为输入在Pycharm中运行spark程序代码示例

以hdfs上文件或者本地文件作为输入在Pycharm中运行spark程序,并将计算结果保存到hdfs上的python代码示例...
  • helloxiaozhe
  • helloxiaozhe
  • 2017年11月07日 19:39
  • 110

Python海量数据处理之_Hadoop&Spark

本篇将介绍Hadoop+Spark的安装配置及如何用Python调用Spark。
  • xieyan0811
  • xieyan0811
  • 2017年12月26日 16:27
  • 66

hadoop+spark搭建文档

  • 2016年06月20日 13:43
  • 13.33MB
  • 下载

Python IDE:PyCharm中的那些实用功能

到目前为止,我用Eclipse已经有一些年头了,大部分的时间都是用来写Python(安装Pydev插件)以及C++(安装CDT插件)。 最近我从一个好友那听说了PyCharm以及它新的免费社区版...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年12月25日 21:52
  • 2095

在程序中指定Spark和Hadoop的用户

Spark和Hadoop都被设计为多用户共享使用,每个用户程序都关联一个用户,Spark和Hadoop根据该用户授予用户程序对集群相关资源的访问权限。如果是强认证方式,每个用户程序关联的用户不可随意指...
  • wyc09
  • wyc09
  • 2013年11月15日 12:19
  • 6059

Spark+Hadoop环境搭建

一、工具下载: 1、spark下载 目前最新的是2.1.1,spark 2.0开始api和之前的还是有比较多的变化,因此如果选择2.0以上版本,最好看一下api变化,下载地址:http://spark...
  • u012292247
  • u012292247
  • 2017年06月17日 11:51
  • 777

关于Hadoop与Spark的讨论

原文地址:http://www.zhihu.com/question/26568496/answer/64405363 Hadoop 首先看一下Hadoop解决了什么问题,Hadoop就是解决了大...
  • jianzhanger
  • jianzhanger
  • 2015年11月20日 11:36
  • 2133

hadoop2.6上部署spark

Hadoop2.6的安装可以看之前的文章,这里就不再赘述 http://blog.csdn.net/yuzhuzhong/article/details/50000307 相对于前文所建的Had...
  • yuzhuzhong
  • yuzhuzhong
  • 2015年12月08日 08:58
  • 832

基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装

写在前边的话        hadoop2.7完全分布式安装请参考:点击阅读,继任该篇博客之后,诞生了下面的这一篇博客        基本环境:               CentOS 6...
  • Gamer_gyt
  • Gamer_gyt
  • 2016年07月28日 09:37
  • 7772
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:用pycharm + python写spark(spark-2.0.1-bin-hadoop2.6)
举报原因:
原因补充:

(最多只允许输入30个字)