Spark
文章平均质量分 77
aimmon
这个作者很懒,什么都没留下…
展开
-
Spark shuffle 调优
Shuffle参数调优spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。 调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减少shuffle write过程中溢写磁盘文件的次数,也就可以减少磁盘IO次数,进而原创 2021-01-28 18:10:19 · 167 阅读 · 0 评论 -
SparkStreaming foreachRDD 算子
import java.sql.DriverManagerimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * 核心算子:foreachRDD */object WordCountForeachRDD { def main(args: Array[String]) { //做单词计数 val.原创 2020-11-15 17:23:59 · 196 阅读 · 0 评论 -
Spark shell The specified datastore driver (“com.mysql.jdbc.Driver“) was not found in the CLASSPATH
org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.原创 2020-11-08 22:05:06 · 682 阅读 · 0 评论 -
scala > spark format jdbc java.sql.SQLException: No suitable driver
scala> val jd = spark.read.format("jdbc").option("url","jdbc:oracle:thin:@192.168.163.134:1521:orcl").option("dbtable","scott.emp").option("user","scott").option("password&原创 2018-10-29 22:34:16 · 814 阅读 · 0 评论 -
Spark core 编程案例1
测试数据:192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/ HTTP/1.1" 200 259192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/head.jsp HTTP/1.1" 200 713192.168.88.1 - - [30/J...原创 2018-10-23 00:37:29 · 951 阅读 · 0 评论 -
Spark coalesce 和repartitions 区别
源码包: org.apache.spark.rdddef coalesce(numPartitions: Int, shuffle: Boolean = false, partitionCoalescer: Option[PartitionCoalescer] = Option.empty)(implicit ord: Ordering[(K, V)] = null): RDD[(K, V...原创 2018-10-22 22:58:02 · 337 阅读 · 0 评论 -
Spark学习笔记1. 伪分布式&全分布式环境搭建
安装Linux、JDK等等解压:tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C ~/training/由于Spark的脚本命令和Hadoop有冲突,只设置一个即可(不能同时设置)配置文件:/root/training/spark-2.1.0-bin-hadoop2.7/conf/spark-env.sh /root/tr...原创 2018-10-11 01:28:30 · 571 阅读 · 0 评论 -
Spark学习笔记6. Spark提交任务的流程
翻译 2018-10-14 01:41:02 · 165 阅读 · 0 评论 -
Spark学习笔记5. WordCount处理流程
翻译 2018-10-14 01:37:23 · 161 阅读 · 0 评论 -
Spark学习笔记4. IDEA开发WordCount 程序
1.Scala 版package demoimport org.apache.spark.{SparkConf, SparkContext}object SparkDemo { def main(args: Array[String]): Unit = { //配置 val sparkConf = new SparkConf() sparkConf.se...原创 2018-10-13 01:36:25 · 296 阅读 · 0 评论 -
Spark 学习笔记3. spark-submit + spark-shell
spark-submit: 相当于 hadoop jar 命令 ---> 提交MapReduce任务(jar文件 ) 提交Spark的任务(jar文件 ) Spark提供Example例子:/root/training/spark-2.1.0-bin-hadoop2.7/examples/spark-examples_2.11-2.1.0.jar ...原创 2018-10-13 01:45:15 · 743 阅读 · 0 评论 -
Spark学习笔记2. HA 环境搭建
Spark HA:两种方式 参考讲义(1)基于文件目录: 开发测试(单机环境) (*)将Worker和Application的状态信息写入一个目录 (*)如果出现崩溃,从该目录进行恢复 (*)在bigdata11上配置 (1) 创建一个恢复目录 mkdir /root/training/spark-2.1.0-bin-hadoop2.7/recovery...原创 2018-10-11 21:51:41 · 238 阅读 · 0 评论