IDEA
文章平均质量分 69
发量不足
耐心,自信来源于你强大的思想和知识基础
展开
-
[Spark、hadoop]Spark Streaming整合kafka实战
Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写,是一个基于Zookeeper系统的分布式发布订阅消息系统,该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点:其优点具体:(1)解耦。Kafka 具备消息系统的优点,只要生产者和消费者数据两端遵循接口约束,就可以自行扩展或修改数据处理的业务过程。(2)高吞吐量、低延迟。即使在非常廉价的机器上,Kafka也能做到每秒处理几十万条消息,而它的延迟最低只有几毫原创 2022-10-14 10:57:40 · 3770 阅读 · 86 评论 -
[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每个微批就是一个RDD2、DStream由一系列连续的RDD组成,每个RDD都包含来自特定间隔的数据3、DStream本质上就是一系列时间上连续的RDD(DStream = Seq[RDD])原创 2022-10-12 10:29:10 · 7017 阅读 · 63 评论 -
[Spark、hadoop]spark Streaming的核心DStream
1.SparkStreaming提供了一个高级抽象的流,即DStream(离散流)。2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。原创 2022-10-03 14:12:39 · 2324 阅读 · 114 评论 -
[平台运维、Hadoop]Spark Streaming 实时计算框架
在大数据技术中,有离线计算、批量计算、实时计算以及流式计算,其中,离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。Spark Streming是构建在Spark上的实时计算框架,且是对Sparks Core API的一个扩展,它能够实现对流数据进行实时处理,并具有很好的可扩展性、高吞吐量和容错性。原创 2022-10-02 14:25:22 · 1776 阅读 · 8 评论 -
[平台运维、Hadoop]kafka streams概述
Kafka Streams是Apache Kafka开源项目的一个流处理框架,它是基于Kafka的生产者和消费者,为开发者提供了流式处理的能力,具有低延迟性.高扩展性、高弹性、高容错性的特点,易于集成到现有的应用程序中。KafkaStreams是一套处理分析Kafka中存储数据的客户端类库,处理完的数据可以重新写回Kafka,也可以发送给外部存储系统。原创 2022-10-01 09:56:52 · 1765 阅读 · 14 评论 -
Kafka 生产者和消费者实例
基于命令行使用Kafka类似scala,mysql等,命令行是初学者操作Kafka的基本方式,kafka的模式是生产者消费者模式,他们之间通讯是通过,一个公共频道完成。指定消费者组ID,在同一时刻同一消费组中只有一个线程可以去消费一个分区数据,不同的消费组可以去消费同一个分区的数据。(查看KafkaConsumerTest的运行框)由以下图可以看出生产者生产消息。在工程里面的pom.xml文件添加Kafka依赖。原创 2022-09-17 20:51:43 · 4050 阅读 · 24 评论 -
Dataset 的基础知识和RDD转换为DataFrame
Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构,最懂在Spark2.0版本被定义成Spark新特性。RDD, DataFrame,Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息,每一行的类型固定为Row,每一列的值无法直接访问3 在RDD的基础上增加了一个数据类型,可以拥有严格的错误检查机制。4 Dataset和DataFrame拥有完全相同的成员函数原创 2022-08-25 12:17:31 · 1659 阅读 · 28 评论 -
集群模式执行Spark程序(第七弹)
打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...原创 2022-08-11 23:18:37 · 903 阅读 · 15 评论 -
添加spark的相关依赖和打包插件(第六弹)
可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)原创 2022-08-09 22:37:29 · 4042 阅读 · 13 评论 -
IDLE开发wordCount程序(第五弹)
以本地模式执行spark程序原创 2022-08-08 22:07:48 · 712 阅读 · 16 评论 -
Spark的概念、特点、应用场景
Spark于2000年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。它是基于内存计算的大数据并行计算框架🎈🎈🎈Spark生态系统主要包含SparkCore.SparkSQL.SparkStreamingMIlibGraphX以及独立调度器介绍SparkCoreSpark核心组件,它实现了Spark的基本功能。SparkSQL用来操作结构化数据的核心组件在处理结构化数据时,开发人员无须编写MapReduce程序....原创 2022-07-31 00:02:08 · 7249 阅读 · 4 评论 -
Scala的模式匹配与样例类
Scala 提供了强大的模式匹配机制,最常见的模式匹配就是mateh语句,主要应用于从多个分支中进行选择的场景。不仅如此,Secala还提供了样例类,它可以对模式匹配进行优化,提高匹配的速率。原创 2022-07-29 20:04:37 · 861 阅读 · 2 评论 -
Scala面向对象的特征
Scala是一种面向对象的语言,并且运行在JVM中。原创 2022-07-29 19:58:00 · 676 阅读 · 11 评论 -
Scala的数据结构(步入家门)
Scala中的数组分为定长数组和变长数组,这两种数组的定义方式如下newArray[T](数组长度)//定义定长数组//定义变成数组。原创 2022-07-19 10:19:22 · 789 阅读 · 26 评论 -
test3
test3原创 2022-07-01 09:49:44 · 290 阅读 · 1 评论 -
Scala的基础语法(小试牛刀)
目录一.声明值和变量二.数据类型三.算术和操作符重载四.控制结构语句五.方法和函数一.声明值和变量Scala有两种类型的变量:使用关键字var声明的变量,值可以变的 使用关键字val声明的变量,值不可以变的#注意二.数据类型三.算术和操作符重载四.控制结构语句在Scala中,控制结构语 句包括条件分支语句和循环语句条件分支:循环语句:从0循环到9每一次循环打印输出(“0 to 9”表示从0...原创 2022-03-19 20:53:56 · 620 阅读 · 6 评论 -
Scala的安装和IDEA的使用(初入茅庐)
Scala的安装和IDEA的使用(初入茅庐)原创 2022-03-06 15:55:09 · 4666 阅读 · 7 评论