大数据
文章平均质量分 66
菜鸟的大数据学习记录
Aidealm
我大哥是帅吴岳
展开
-
Input DStream和Receivers
文章目录前言一、要点二、基本源1.文件流总结前言每一个DStream都和一个一个Receiver 对象有关,Receiver从一个源接收到数据,然后存储在spark的内存中进行处理。spark提供了两类的内置流源基础源:直接在StreamingContext可用的源。高级源:例如KafKa 等一、要点在本地运行Spark流程序时,不要使用“local”或“local[1]”作为主URL。这意味着只有一个线程将用于在本地运行任务。如果使用的是基于receiver的输入数据流(如sock原创 2021-06-08 19:20:30 · 238 阅读 · 0 评论 -
spark编程指导
文章目录前言一、离散流(DStream)前言本文主要按照官方教程理解了spark离散化数据流一、离散流(DStream)DStream 是spark 流提供的基本抽象。表示一系列连续的数据流,可以从源文件获得,也可以从输入流转换得到。DStream是由连续的RDD表示。每个RDD包含来自某个间隔的数据。应用于数据流的任何操作都被转换为底层RDD上的操作。对每行DStream中的每个RDD应用flatMap操作以生成字DStream的RDD。...原创 2021-06-07 20:46:59 · 195 阅读 · 2 评论 -
spark 时间窗口操作
文章目录一、基于事件时间的窗口操作二、处理延迟数据和水印三、清除聚合状态的水印条件四、基于水印的聚合语义保证总结一、基于事件时间的窗口操作窗口在10分钟分组聚合,每5分钟触发一次结果表,如上图,数据在12:00-12:05来临,在12:05会进行结果统计。数据在12:05-12:10到达时,不但要统计12:00-12:10的数据,还需要统计12:05-12:15的数据。在绿色结果表中可以清晰的看到加粗的横线将不同窗口的结果进行划分。在Java中使用如下代码进行设置Dataset<Row&.原创 2021-06-03 15:50:06 · 1708 阅读 · 0 评论 -
spark编程模型
文章目录前言一、基本概念前言spark 结构化流式编程指南---------------------编程模型结构化流种的关键思想是将实时数据流看作不断追加的表,非常类似于批处理模型。一、基本概念将输入数据流看作为“输入表”,每一个正在以流的形式到来的数据项像一个新行被追加再输入表上。在input上查询时将会产生结果表。新行追加到输入表时,最终会更新结果表,每当更新结果时,更新后的结果行写入外部接收器。Output被定义成向外部数据输入的。Complete mode 将数据完全写入外原创 2021-06-01 19:08:47 · 295 阅读 · 2 评论 -
Spark SQL入门
文章目录一、sparkSession二、创建数据集二、无类型数据集操作三、 以编程方式运行sql查询四、 全局临时视图五、 创建数据集五、 与RDD交互交互一、sparkSession指向所有方法的实体类是sparkSession, 使用SparkSession.build().builder()创建 SparkSession session = SparkSession.builder() .appName("Java Spark SQL basic example").config("spa.原创 2021-05-28 22:35:11 · 283 阅读 · 0 评论 -
RDD共享数据集
文章目录前言一、共享变量二、部署集群三、单元测试前言共享数据集部署集群单元测试一、共享变量在远程节点上执行spark方法时,会拷贝该方法的单独副本。远程节点上的数据更新不会回传到driver程序。spark提供了两种共享数据变量:broadcast(广播)和accumulators(累加器)。广播变量broadcast变量允许程序在节点保存一个可读的缓存。比如可以缓存一个数据集,并且spark选择以一种高效的广播算法来广播broadcast变量。spark操作分为一系列阶段,这.原创 2021-05-27 22:22:37 · 186 阅读 · 0 评论 -
spark弹性分布式数据集编程
文章目录RDD概述一、初始化spark1. 导包2. 初始化代码二、弹性化分布式数据集1.并行化数据集2. 对数据进行操作三、 Spark's Java API 支持的数据格式三、 RDD操作四 、spark传递方法RDD概述RDD弹性分布式数据集(resilient distributed dataset)不可变的分布式对象集合每个RDD可被分为多个分区,这些分区运行在不同节点RDD 可以由Hadoop文件系统(其他分布式文件系统)或者驱动程序中现有的Scala集合,其他RDD集合转换创建原创 2021-05-25 15:35:36 · 173 阅读 · 0 评论 -
spark开发环境搭建
spark开发环境搭建提示:spark官方系列教程文章目录spark开发环境搭建前言一、IDEA搭建Maven工程二、新建 SimpleApp类1.复制代码2.设置JVM运行参数总结前言本篇内容主要按照spark官方教程,搭建Java版的spark开发教程,该例子主要是为了统计含有“a”的行数,和含有“b”的行数。提示:以下是本篇文章正文内容,下面案例可供参考一、IDEA搭建Maven工程IDEA搭建maven工程,在pom文件中导入依赖。 <dependencies>原创 2021-05-22 20:57:47 · 198 阅读 · 0 评论