spark
文章平均质量分 78
乐意李先生
最简单的大白话说技术是怎么回事
展开
-
20天学习Spark(1)之Spark UI的使用
Spark UI的使用方式原创 2022-09-13 11:25:50 · 2486 阅读 · 0 评论 -
20天学习Spark(0)之最简单版Spark入门
spark简单入门案例,根据20行代码讲解Spark基础应用原创 2022-08-18 12:51:01 · 2527 阅读 · 0 评论 -
spark的学习(2)之计算最受欢迎美食种类然后画词云
上一篇文章主要讲的是spark如何进行词频统计,数据集为自己创建的,本篇主要使用上一篇的逻辑在实际应用中进行扩展—计算广州美食中最受欢迎的美食类别,然后把数据画成词云。本篇是上一篇spark的学习(1)之使用spark进行WordCount词数统计的扩展,所以本篇没有涉及到更多的API,主要基于原本的API。重点在于思路,至于spark的后续知识点会在后续博文中说明,(^_−)☆ 关注博主不走丢如果进行大数据处理,首先我们需要先明白数据,本文中的数据集是从和鲸社区中下载的,下载地址如下https://原创 2021-08-26 10:57:51 · 699 阅读 · 0 评论 -
20天学习Spark(5)之Streaming+kafka实现用户实时日志
一篇学会如何在生产环境下使用kafka+SpringBoot+sparkStreaming对用户日常行为进行大数据分析处理注意:本文适用于已经掌握基础java框架想学习大数据的开发者建议收藏,否则容易找不到之前的文章中streaming处理的数据主要用于学习streaming的一些基础使用,在实际生产环境下还是需要使用专门的日志收集。kafka&&zookeeper下载地址:https://download.csdn.net/download/lihao1107156171/18.原创 2021-04-30 08:18:43 · 452 阅读 · 1 评论 -
spark学习之旅(4)之Streaming的使用
Spark Streaming类似于Apache Storm,用于流式数据的处理。所谓流式处理其实指的就是实时数据,之前的spark都是处理离线数据的,就是直接处理数据文件,而streaming是一直检测数据,数据出来一条,处理一条。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduc原创 2021-04-11 08:19:29 · 464 阅读 · 0 评论 -
spark学习之旅(2)之之RDD常用方法
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。这里的弹性指的是RDD可以根据当前情况自动进行内存和硬盘存储的转换简单点讲就是spark中对数据的一个封装,把数据封装进对象,容易操作在spark中所有的计算都是围绕着RDD操作的,每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上,并且RDD也可以缓存到内存中RDD支持两种操作:转化操作和行动(计算)操作。RD原创 2021-03-21 22:28:46 · 1170 阅读 · 0 评论 -
spark学习之旅(3)之sparkSQL的使用
SparkSQL,使用SQL来完成大数据操作Spark的RDD操作方便处理大数据操作,但是也有各种问题,例如RDD每次读取的都是字符串,以及语法比较比较麻烦。针对这种情况,spark在新版本中升级RDD为DataFrame和DataSet,并使用SQL的方式去操作数据DataFrame,RDD的升级版,分布式的数据集,并且以列的方式组合的,类似于二维表格式,除数据外保存数据结构信息DataSet,DataFrame扩展,最新的数据抽象,相对于DataFrame,DataSet会记录字段的数据类型,并进原创 2021-03-21 22:25:39 · 291 阅读 · 0 评论 -
spark的学习(1)之使用spark进行WordCount词数统计
Spark是一种由scala编写的快速、通用、可扩展的大数据分析引擎1、简单介绍下面是对spark的简单介绍,嗯,主要就是说下spark有多好多好的,不想看的可以直接去第二步特点1)快:与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。2)易用:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用原创 2021-03-21 10:42:18 · 1161 阅读 · 0 评论