![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
cat__hadoop
0.0
展开
-
jupyter中使用pyspark连接spark集群
目标:此文在jupyter中配置pyspark,并非配置pyspark的内核,而是希望在python3的内核下,使用pyspark连接spark集群. 准备:spark单机版 , jupyter notebook ,且两者不在同一机子上1.安装在默认的jupyter notebook中是没有pyspark包的,所以需要下载依赖包才行. 网上现在有2个包,支持python 去连接 s...原创 2018-04-27 14:05:56 · 10895 阅读 · 2 评论 -
Hadoop,Zookeeper,Hbase,Hive,Spark,Kafka,CDH中webui常用端口
Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 Zookeeper: 2181 : 客户端连接zooke...转载 2018-04-27 15:13:45 · 2104 阅读 · 0 评论 -
PySpark的实现原理
PySpark实现了Spark对于Python的API,通过它,用户可以编写运行在Spark之上的Python程序,从而利用到Spark分布式计算的特点。基本流程PySpark的整体架构图如下,可以看到Python API的实现依赖于Java的API,Python程序端的SparkContext通过py4j调...转载 2018-04-28 13:55:14 · 1142 阅读 · 0 评论 -
scala编写spark报错java.lang.ArrayIndexOutOfBoundsException: 10582
当前环境:jdk1.8+scala1.2+spark2.4 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version&g...原创 2019-04-13 17:05:59 · 2122 阅读 · 1 评论