ly的学习笔记-CSDN博客

原创 Spark实时数仓(三)

二.样例类三.ES相关(创建index)四.Alert实现五.启动APPES客户端查看输入参数返回结果3.编辑子模块(gmall-realtime)一.数据处理流程三.采集user_Info进入缓存(redis)五.双流join二.配置 application.properties三.业务代码实现pojo层option.java(一个统计选项)SaleDetail.java(销售统计详情)Stat.java(一组统计选项)dao层ESDao.ja

2022-07-11 22:55:31 460

原创 Spark实时数仓(二)

二.配置文件config.propertieslog4j.properties三.工具类PropertiesUtil.scalaMyKafkaUtil.scalaRedisUtil四.DAU实现流程图设计redis的key,value| key | value || — | — || 当前批次日期(logDate) | 设备号(mid) |Phoenix建表为了便于对数据进行解析,需要将数据封装为样例类(StartUpLog,StartLogo

2022-07-11 22:54:52 396

原创 Spark实时数仓(一)

pom.xml2.创建子模块(gmall-common)一.pom.xml二.MyConstants.java3.创建子模块(gmall-logger)将gmall-common模块pom.xml中的以下配置复制到gmall-logger模块的pom.xmlspark-gmall的pom.xml添加以下内容gmall-logger.xmlapplication.properties整合log4j(log4j.properties)编写contro

2022-07-11 22:54:09 2010

原创 ElasticSearch笔记

查询：宽泛的概念！只要将某个东西查询出来！搜索：一种特定的查询！搜索一般指通过某个关键字，检索出和关键字相关的信息！搜索引擎，不适合使用关系型数据库存储数据！原因： ①在搜索时，只输入关键字，希望可以得到匹配关键字的所有的数据！如果使用数据库，在查询时一定需要模糊查询，模糊查询会导致索引失效，全表扫描！效率低！2.几个框架solr : 和es的作用是一样的，都是用于搜索！效率上： solr（老大哥）：小数据量，静态搜索，优于es！es(新人) ：大数量，动态搜索，优于s

2022-07-11 22:53:35 257

原创 $09[SparkStreaming流式处理]

3.SparkStreaming特点易用编写代码启动程序并通过netcat发送数据[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oYN7eQJX-1657550653007)(https://z3.ax1x.com/2021/08/31/haRa28.png#id=Tkitw&originHeight=507&originWidth=603&originalType=binary&ratio=1&status=done&style=none)]2.自

2022-07-11 22:44:37 181

原创 &08[SparlSQL(编程_数据的加载和保存)]

2.DataFrame与DataSet的区别3.自定义UDF函数4.自定义UDAF函数(弱类型)MyAvgWeakType.scalaUDAF.scala5.自定义UDAF函数(强类型)MyAvgStronglyType.scalaUDAF.scala第二章.SparkSQL数据的加载与保存1.读取文件2.读取jdbc3.读取mysql的分区数源码4.保存数据5.Spark整合Hive一.内嵌Hive应用直接进入spark-yarn,直接使

2022-07-11 22:43:58 172

原创 $07[SparkSQL(概述_编程)]

执行时间对比:三者的共性四.SparkSQL的优点易整合: 无缝的整合了SQL查询和Spark编程

2022-07-11 22:43:07 87

原创 $06[SparkCore(分区器_数据读取与保存_累加器_广播变量)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7SMhMAX4-1657550536149)(https://z3.ax1x.com/2021/09/12/4pXe2t.png#id=jDAOU&originHeight=439&originWidth=913&originalType=binary&ratio=1&status=done&style=none)]第三章.累加器1.累加器介绍2.WordCountAccumulator自定义累加器使用自定义

2022-07-11 22:42:33 92

原创 $05[SparkCore(Action_序列化_依赖关系_持久化)]

2.collect3.count4.first5.take6.takeOrdered7.aggregate8.fold9.countByKey10.save11.foreach11.foreachPartition第二章.RDD序列化1.闭包2.Spark序列化闭包使用未序列化的外部变量时运行结果报错:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aj4UUm5t-1657550355591)(https://z3

2022-07-11 22:39:37 295