![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
myllxy
欢迎关注知乎专栏:https://www.zhihu.com/column/c_1274036496291827712
展开
-
Spark Standalone和Yarn工作模式
一.常用的参数其中- -deploy-mode默认为client。二.Standalone模式1.Standalone-client模式提交任务./spark-submit --master spark://node1:7077 --deploy-mode client --class org.apache.spark.examples.SparkPi …/examples/jars/...原创 2019-01-17 12:05:38 · 3677 阅读 · 1 评论 -
Spark DataFrame 的生成
json 文件如下:一.读取json文件加载DataFrameimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSessionclass dataframetest {}object dataframetest{ def main(args: Array[Stri...原创 2019-03-05 13:07:44 · 304 阅读 · 0 评论 -
spark 连接 mysql 出现 No suitable driver
解决办法是将 mysql 的驱动jar包,放到 /root/apps/jdk1.8.0_181/jre/lib/ext 目录下问题解决!原创 2019-02-28 15:21:14 · 2077 阅读 · 0 评论 -
Spark shuffle 文件寻址及 Executor 内存管理
一.文件寻址根据 Spark Shuffle概述 最后,reduce task (或者说是 Worker 端)是如何找到索引文件这些磁盘小文件位置的呢?假如 spark.shuffle.memoryFraction 初始有50M ,第一次拉取数据的时候48M 可以放得下,还剩2M 的内存,第二次拉取的时候放不下了不会 OOM ,以后都不会 OOM ,而是直接溢写磁盘。假如 spark.sh...原创 2019-02-13 13:49:47 · 287 阅读 · 0 评论 -
Spark Shuffle概述
一.什么是 Spark ShuffleReduceByKey 的含义?ReduceByKey 会将上一个 RDD 中的每一个 key 对应的所有 value 聚合成一个 value,然后生成一个新的 RDD,元素类型是<key,value>对的形式,这样每一个 key 对应一个聚合起来的 value。问题:每一个 key 对应的 value 不一定都是在一个 partitio...原创 2019-02-11 22:05:48 · 190 阅读 · 0 评论 -
Spark RDD持久化算子
先看这样一段代码:在这段代码中,一个 action 算子代表一个 job ,每一个 count 都对 errors 进行了重复的使用,造成重复的读磁盘操作,降低了运行速度。为了避免这种浪费,应该存在一种中间缓存技术—— RDD 持久化。RDD 的持久化cachepersistcheckpointcache:默认将数据存在内存中,懒执行算子/*从内存读数据与从磁盘读数据的区...原创 2019-02-15 15:58:19 · 744 阅读 · 0 评论 -
Spark提交任务时报beyond virtual memory limits错误
以Spark-Client模式运行,Spark-Submit时出现了下面的错误:User: hadoop Name: Spark Pi Application Type: SPARK Application Tags: YarnApplicationState: FAILED FinalStatus Reported by AM: FAILED Started...转载 2019-01-16 21:33:22 · 1142 阅读 · 0 评论 -
Spark资源调度和任务调度概述
原创 2019-01-21 20:39:27 · 227 阅读 · 0 评论 -
Spark RDD概述
一.RDD的概述1.1. 什么是RDD原创 2019-01-15 21:19:14 · 597 阅读 · 0 评论 -
Spark配置高可用
配这个就是当你主节点master爆了的时候,从节点的master会进行代替,这就叫高可用1.配置spark-env.shexport SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark...原创 2019-01-23 18:43:14 · 555 阅读 · 0 评论 -
Spark安装
1.虚拟机配置主机名 配置 node1 3G,20G node2 2G,20G node3 2G,20G 2.版本信息组件名称 版本 JDK jdk1.8.0_181 Hadoop hadoop-2.7.1 Spark spark-2.4.0 Scala scala-2.11.0 3.安装过程(1...原创 2019-01-13 20:41:16 · 131 阅读 · 0 评论 -
Spark RDD编程案例
1.获取弹幕文件中带!的弹幕由于!有些是中英文的,所以filter需要一个||// 获取弹幕中带感叹号的,无论大小写var lines = sc.textFile("file:///root/Desktop/barrage.json")var lines_after= lines.filter(line=>(line.contains("!")) || (line.conta...原创 2018-08-06 19:42:44 · 830 阅读 · 0 评论