Spark
初级以上
开始觉悟,得认真学习。
展开
-
Spark运行脚本解析 - start-all.sh
部署Standalone Cluster模式的Spark,可以通过2种方法来启动Cluster: 1)通过手工的方式,单独在Master节点上启动master实例;然后,再单独在Worker节点上启动worker实例; 2)通过Spark自带的运行脚本来管理启动,只需要运行./sbin/start-all.sh,就可以自动启动master和所有的worker实例。原创 2016-11-24 13:42:53 · 5206 阅读 · 0 评论 -
Spark 实践 - RDD 的 union操作实例
一、概念简介: RDD是Spark中最重要的抽象概念,叫做弹性式分布式数据集。在Spark的世界中,到处都是RDD,Spark提供了2种方式来操作RDD,分别为:转换、执行。转换、执行操作也内嵌了很多方法。 RDD也是一种数据集,RDD非常灵活,可以存储的数据类型非常灵活——基础类型如String,Int;也可以存储复杂类型——List、用户自定义类型等。原创 2016-12-13 14:02:31 · 13900 阅读 · 0 评论 -
Spark共享变量-Broadcast广播变量介绍及scala实现
通常情况下,当1个function传递到1个spark operation(例如:map、reduce)时,这个function是在远程的集群node上被执行的。这些变量会被复制到每一台机器,在远程机器上不会更新这些变量,然后又传送回driver program。跨tasks共享读写变量的支持,通常是低效率的。然而,spark提供了2种通用的共享变量模式:广播变量和累加器。 广播变量翻译 2016-12-09 09:17:58 · 8624 阅读 · 0 评论 -
Spark 实践 - RDD 的 join操作之需要注意的事项 - RDD为空的join操作
RDD的join操作,如果存在有join的RDD为空,则计算后的结果也将是空的。原创 2016-12-27 11:16:13 · 5921 阅读 · 0 评论 -
Spark 实践 - 客户端使用spark-submit提交Spark应用程序及注意事项
在spark集群之后的机器,使用spark-submit提交spark应用程序到spark集群运行。使用spark-submit的命令参数说明及注意事项。原创 2017-01-04 13:21:47 · 4035 阅读 · 0 评论 -
Spark 实践 - Spark Streaming 应用程序中的错误:ORA-01000: maximum open cursors exceeded
使用Spark Streaming 编写处理实时消息的应用唾弃,然后将计算后的数据写回Oracle,给Web应用程序使用,Spark Streaming应用程序启动后,运行几个周期之后报出异常,自动重启后又报出异常:java.sql.SQLException: ORA-01000: maximum open cursors exceeded原创 2016-12-28 11:25:22 · 841 阅读 · 0 评论 -
实战 - Spark SQL 整合Hive时,报错找不到mysql驱动
在Spark SQL整合Hive时,老报错:The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.尝试过:1. 把 $HIVE_HOME/原创 2017-07-10 17:33:33 · 1999 阅读 · 1 评论 -
实战 - 部署 Spark Application 到集群
命令格式【命令式】 spark-submit [options] <app jar | python file> [app options]【例子】spark-submit --master spark://host:7077 --executor-memory 10g my_script.py参数 : 1. –master :指定 cluster connetion URL , 可以有多种集群原创 2017-07-21 09:50:49 · 792 阅读 · 0 评论 -
Spark Web UI 的应用说明
每个 SparkContext 运行时,都会运行一个 Web UI ,默认 4040 端口。 解读:每个 Spark Application 都会开启一个自己的 Web UI,默认端口号为4040。 访问地址: http://:4040 。如果同一 node 上运行了多个 Spark Application 则这些应用的端口将会往上累加,eg : 4040,4041,4042 。Spark A原创 2017-08-31 23:45:32 · 8311 阅读 · 0 评论