spark
文章平均质量分 72
spark
一个人的牛牛
一个人的牛牛,要么孤独,要么庸俗!踏踏实实从头开始!
展开
-
spark学习笔记(十二)——sparkStreaming-RDD队列/自定义数据源/kafka数据源/DStream转换/DStream输出/优雅关闭
继承Receiver,实现onStart、onStop方法来自定义数据源采集。//TODO 创建配置环境//采集数据//开始}/*自定义数据采集器1.继承Receiver,定义泛型,传递参数2.重写方法*///最初启动,读数据val message = "采集的数据为:" + new Random().nextInt(10).toString}}}//停止}}}结果://初始化Spark配置信息//初始化SparkStreamingContext。......原创 2022-08-18 23:47:45 · 763 阅读 · 0 评论 -
spark学习笔记(十一)——sparkStreaming-概述/特点/构架/DStream入门程序wordcount
Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多:Kafka、Flume、Twitter、ZeroMQ 和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语:map、reduce、join、window等进行运算。而结果也能保存在:HDFS,数据库等。DStream。......原创 2022-08-13 23:43:18 · 616 阅读 · 1 评论 -
spark学习笔记(十)——sparkSQL核心编程-自定义函数UDF、UDAF/读取保存数据/五大数据类型
用户可以通过spark.udf功能添加自定义函数,实现自定义功能。SparkSQL提供了通用的保存数据和读取数据的方式;通用指的是使用相同的API根据不同的参数读取和保存不同格式的数据,SparkSQL默认读取和保存的文件格式是parquet。数据类型:csv、format、jdbc、json、load、option、options、orc、parquet、schema、table、text、textFile......原创 2022-08-10 11:31:47 · 1495 阅读 · 1 评论 -
spark学习笔记(九)——sparkSQL核心编程-DataFrame/DataSet/DF、DS、RDD三者之间的转换关系
前言前言Spark SQL可以理解为Spark Core的一种封装,在模型上和上下文环境对象上进行了封装;:用于Spark自己提供的SQL查询;:用于连接Hive的查询。:是Spark最新的SQL查询起始点,是SQLContext和HiveContext的组合,在 SQLContex和HiveContext上可用的API在SparkSession上同样是可以使用的。注:Spark Core首先构建上下文环境对象SparkContext才可以执行应用程序,sparkSQL和spark core类似。.....原创 2022-08-09 10:04:47 · 1445 阅读 · 0 评论 -
spark学习笔记(八)——sparkSQL概述-定义/特点/DataFrame/DataSet
sparkSQL是spark用于结构化数据处理的spark模块。原创 2022-08-08 09:36:45 · 378 阅读 · 0 评论 -
spark:页面单跳转换率统计(案例)
如果用户在一次Session过程中访问的页面路径为3,9,10,那么页面3跳到页面9叫一次单跳,单跳转化率就是统计页面点击的概率。如计算3-9的单跳转化率,先获取符合条件的Session对于页面3的访问次数A,然后获取符合条件的Session中访问页面3又接着访问页面9的次数B,那么B/A就是3-9的页面单跳转化率。根据这个指标可以去尝试分析整个网站,产品,各个页面的表现,及时作出更改。.........原创 2022-07-31 18:04:35 · 867 阅读 · 0 评论 -
spark:热门品类中每个品类活跃的SessionID统计TOP10(案例)
session服务器为了保存用户状态而创建的一个特殊的对象。浏览器第一次访问服务器时,服务器创建一个session对象,该对象有一个唯一的id,一般称之为sessionId,服务器会将sessionId以cookie的方式发送给浏览器。当浏览器再次访问服务器时,会将sessionId发送过来,服务器依据sessionId就可以找到对应的session对象。sessionID用来判断是同一次会话。服务器端的session只要还在同一个生命期内就还是同一次会话。...原创 2022-07-31 17:36:39 · 511 阅读 · 0 评论 -
spark:商品热门品类TOP10统计(案例)
品类是指产品的分类,大型电商网站品类分多级,一般为三级分类,此次项目中品类只有一级。不同的公司对热门的定义不一样。此次按照每个品类的点击---->下单---->支付的量来统计热门品类。先按照点击数排名,数量决定排名;点击数相同,比较下单数;下单数相同,比较支付数。...原创 2022-07-31 17:07:22 · 2226 阅读 · 2 评论 -
spark学习笔记(七)——sparkcore核心编程-RDD序列化/依赖关系/持久化/分区器/累加器/广播变量
Unit={//TODO创建环境//TODO累加器——自定义累加器))//累加器//创建累加器对象//向spark进行注册word=>{})//TODO关闭环境sc.stop()}*自定义累加器*1.继承AccumulatorV2,设置泛型*2.重写累加器的抽象方法*/Long]]{varmap//累加器是否为初始状态}//复制累加器}//重置累加器Unit={}//向累加器中增加数据(In)String)...原创 2022-07-27 14:09:45 · 599 阅读 · 0 评论 -
spark:地区广告点击量排行统计(小案例)
1)获得高点击率后就可以收取一部分广告收入,当然你的内容粘性越大,广告收入越高;注可以获得客户资料和数据,分析客户的需求,进行定制性服务,让客户更满意;2022-5-3-221930浙江城市6大笨蛋广告1。时间、省份、城市、用户、广告中间字段使用空格分隔。通过分析,平台可以增加内容与服务,更改结构和工作流程。(3)获取无形资产网站知名度,客户资料,客户数据。统计每个省份每个广告被点击数排行的Top5。(2)商业网站更重要的是能够获得信息资产;如下图,作者懒,不想做文字解释。...原创 2022-07-25 23:59:50 · 551 阅读 · 0 评论 -
spark学习笔记(六)——sparkcore核心编程-RDD行动算子
函数签名defaggregate[UClassTag](zeroValueU)(seqOp(U,T)=>U,combOp(U,U)=>U)U。函数签名deffold(zeroValueT)(op(T,T)=>T)T。函数说明分区的数据通过初始值和分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合。函数签名defreduce(f(T,T)=>T)T。函数签名deftake(numInt)Array[T]...原创 2022-07-25 12:55:03 · 480 阅读 · 0 评论 -
spark:计算不同分区中相同key的平均值(入门级-简单实现)
计算不同分区中相同key的平均值。combineByKey实现、aggregateByKey实现。原创 2022-07-24 17:53:33 · 404 阅读 · 0 评论 -
spark:指定日期输出相应日期的日志(入门级-简单实现)
指定日期为2015.05.20,输出这一天的日志。代码如下(日志文件自己找)原创 2022-07-24 09:43:54 · 275 阅读 · 0 评论 -
spark:获取日志中每个时间段的访问量(入门级-简单实现)
以一小时为时间段获取日志中每个时间段的访问量,结果打印在控制台。下面是代码,日志文件自己找。原创 2022-07-24 09:17:47 · 450 阅读 · 0 评论 -
spark学习笔记(五)——sparkcore核心编程-RDD转换算子
RDD转换对RDD功能的补充和封装,将旧的RDD包装成为新的RDD;RDD行动触发任务的调度和作业的执行。RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型和Key-Value类型。原创 2022-07-24 18:50:00 · 516 阅读 · 0 评论 -
spark学习笔记(四)——sparkcore核心编程-RDD
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据处理模型。它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD特点(1)弹性;1)存储的弹性内存与磁盘的自动切换;2)容错的弹性数据丢失可以自动恢复;3)计算的弹性计算出错重试机制;4)分片的弹性可根据需要重新分片。(2)不可变RDD封装了计算逻辑,是不可以改变的;想要改变,只能产生新的RDD;(3)分布式数据存储在集群不同节点上;......原创 2022-07-25 13:07:28 · 420 阅读 · 0 评论 -
spark学习笔记(三)——sparkcore基础知识
ApplicationMaster用于向资源调度器申请执行任务的资源容器Container,,监控整个任务的执行,跟踪整个任务的状态,处理任务失败等异常情况。sparkstreaming提供了丰富的处理数据流的API。(9)执行main函数,执行Action算子(Action。(9)执行main函数,执行Action算子(Action。是一个进程,主要负责资源的调度和分配,进行集群监控等;(6)ApplicationMaster在指定的。(6)ApplicationMaster在指定的。......原创 2022-07-22 11:07:24 · 661 阅读 · 0 评论 -
spark学习笔记(二)——sparkcore-IO(input&output)流(字节流、字符流、缓冲流)
IO字节流&缓冲流&字符流流流是一种抽象概念,它代表了数据的无结构化传递。按照流的方式进行输入输出,数据被当成无结构的字节序列或字符序列。从流中取得数据的操作称为提取操作,而向流中添加数据的操作称为插入操作。用来进行输入输出操作的流就称为IO流。IO流就是以流的方式进行输入输出。......原创 2022-07-21 17:25:10 · 457 阅读 · 0 评论 -
spark学习笔记(一)——sparkcore模拟分布式计算
-声明绑定到maven的compile阶段-->启动顺序executer1----->executer2------>driver。--该插件用于把Scala代码编译成为class文件-->查看executer1和executer2。原创 2022-07-20 15:45:24 · 305 阅读 · 0 评论 -
spark学习笔记(入门)——sparkcore实现wordcount的三种方式
spark:sparkcore实现wordcount的三种方式原创 2022-07-19 13:35:04 · 326 阅读 · 0 评论 -
flume+kafka+SparkStreaming实时日志分析+结果存储到MySQL
目录一.说明二.flume三.kafka四.MySQL五.IDEA写程序六.运行一.说明1.1使用工具:IDEA,spark-2.1.0-bin-hadoop2.7,kafka_2.11-2.3.1,zookeeper-3.4.5,apache-flume-1.9.0-bin,jdk1.8.0_171Scala版本:2.12.15相关工具的安装请关注我的博客!1.2日志可以到这里下载:testlog7.log-spark文档类资源-CSDN下载也可以用..原创 2021-12-22 21:41:10 · 2328 阅读 · 0 评论 -
spark:用Scala写离线日志分析并把结果存储到MySQL
使用工具:IDEAScala版本:2.12.15日志可以到这里下载:testlog7.log-spark文档类资源-CSDN下载也可以用代码生成:Scala模拟日志生成_一个人的牛牛的博客-CSDN博客一定要在数据库中建表!!!!!import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.{SparkConf, SparkContext}//MySQL表,www是表原创 2021-12-22 20:20:55 · 1606 阅读 · 0 评论