![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
月正明
JAVA WEB,大数据
展开
-
Strom&Spark Streaming&Flink比较
Strom/JStrom Spark Streaming Flink 实时性高 有延迟 实时性高 吞吐量较低· 吞吐量高 吞吐量高 只能实时计算 离线+实时 离线+实时 算子比较少 算子丰富 算子丰富 没有 机器学习 没有 没有 图计算 没有 使用比较少...原创 2019-11-18 10:58:36 · 149 阅读 · 0 评论 -
Spark自定义累加器
自定义累加器类型的功能在1.X版本中就已经提供了,但是使用起来比较麻烦,在2.0版本后,累加器的易用性有了较大的改进,而且官方还提供了一个新的抽象类:AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。实现自定义类型累加器需要继承AccumulatorV2并至少覆写下例中出现的方法,下面这个累加器可以用于在程序运行过程中收集一些文本类信息,最终以Set[String]...原创 2019-11-07 17:10:31 · 141 阅读 · 0 评论 -
RDD的相关概念关系
输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些...原创 2019-11-07 16:49:36 · 167 阅读 · 0 评论 -
SparkStreaming案例测试
package com.caimhimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}/** ...原创 2019-11-03 10:16:10 · 431 阅读 · 0 评论 -
RDD,DataFrame,DataSet之间相互转换
RDD:Resilient Distributed DatasetDF:DataFrameDS:DataSet 有类型检查以“/opt/module/spark-2.1.1/examples/src/main/resources/people.txt”样例数据为例子[caimh@master-node resources]$ pwd/opt/module/spark-2.1...原创 2019-11-03 08:20:23 · 280 阅读 · 0 评论 -
Spark自定义分区测试(scala编写)
package com.caimh.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{Partitioner, SparkConf, SparkContext}/** * Created by caimh on 2019/11/2. */class CustomPartitioner(numPart...原创 2019-11-02 10:50:15 · 387 阅读 · 0 评论 -
RDD的三种创建方式
1.从集合中创建Spark主要提供了两种函数:parallelize和makeRDD /** Distribute a local Scala collection to form an RDD. * * @note Parallelize acts lazily. If `seq` is a mutable collection and is altered after...原创 2019-11-01 17:03:56 · 1456 阅读 · 0 评论 -
调度SchedulerBackend源码
原创 2019-11-01 10:40:14 · 134 阅读 · 0 评论 -
RDD的5个主要特征
* - A list of partitions* - A function for computing each split* - A list of dependencies on other RDDs* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partit...原创 2019-10-31 17:19:22 · 1834 阅读 · 0 评论 -
Spark程序Java编写(普通与lambda表达式比较)
以wordCount为例Java普通编程package com.caimh.spark;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.ap...原创 2019-10-29 17:14:39 · 313 阅读 · 0 评论 -
IDEA编写Spark案例WordCount(Scala和Java编程)
用idea编写Spark程序创建RDD,然后对RDD进行操作(调用RDD的方法,方法分为两类,一类叫Transformation(懒,lazy),一类叫Action(执行程序))RDD上的方法和Scala原生的方法是有区别的写好程序,打包上集群运行本地模式运行spark程序,.setMaster("local[*]")1.Scala编写1.1 配置pom.xml文件&...原创 2019-10-29 16:35:26 · 1058 阅读 · 0 评论 -
Spark程序运行核数Cores和内存Memory配置
[caimh@master-node spark-2.1.1]$ ./bin/spark-submit \> --class org.apache.spark.examples.SparkPi \> --master spark://master-node:7077 \> --executor-memory 2g \ --每个exec...原创 2019-10-25 17:44:50 · 2250 阅读 · 0 评论 -
Spark Standalone HA配置
HA架构图1.Zookeeper正常安装并启动[caimh@master-node zookeeper-3.4.13]$ bin/zkServer.sh start[cai...原创 2019-10-23 11:36:46 · 172 阅读 · 0 评论 -
Spark集群安装配置
1 Spark概述1、Spark是一个计算框架 MR是批量计算框架,Spark-Core是批量计算框架 Spark相比MR速度快,MR作为一个job,在中间环节中结果是落地的(会经过磁盘交换),Spark计算过程中数据流转都是在内存的(减少了对HDFS的依赖) MR:多进程模型(缺点:每个任务启动时间长,所以不适合于低延迟的任务 ...原创 2019-10-22 15:18:13 · 1834 阅读 · 0 评论