
项目
文章平均质量分 97
项目
迷雾总会解
我来,我见,我征服!
展开
-
Flink实时数仓-04-ADS层搭建以及基于Sugar和SpringBoot进行数据可视化展示
DWS 层把轻度聚合的结果保存到 ClickHouse 中,主要的目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会以两种形式呈现,一种是面向专业数据分析人员准备的 BI 工具,一种是面向非专业人员的更加直观的数据大屏。本项目将面向 sugar 数据大屏开发数据接口服务。最终显示效果接口执行过程DWS 层计算结果存储在 ClickHouse,本项目将开发数据接口查询ClickHouse中的数据,提供给 Sugar 进行大屏展示。这里主要有两项工作:Sugar是百度云推出的敏捷 BI 和数据可视化原创 2023-06-02 10:24:26 · 991 阅读 · 0 评论 -
Flink实时数仓-03-DWS层搭建
设计要点:(1)DWS层的设计参考指标体系;(2)DWS层表名的命名规范为dws_数据域_统计粒度_业务过程_统计周期(window)注:window 表示窗口对应的时间范围。主要任务从 Kafka 页面浏览明细主题读取数据,过滤搜索行为,使用自定义 UDTF(一进多出)函数对搜索内容分词。统计各窗口各关键词出现频次,写入 ClickHouse。思路分析本程序将使用 FlinkSQL 实现。分词是个一进多出的过程,需要一个 UDTF 函数来实现,FlinkSQL 没有提供相关的内置函数,所以要自定义 UDT原创 2023-06-02 10:19:50 · 709 阅读 · 0 评论 -
Flink实时数仓-02-DWD层搭建
(1)DataStream方式});});} });} }这种方式的缺点是只有inner join。(2)SQL方式});});//将流转换为动态表 tableEnv . createTemporaryView("t1" , waterSensorDS1);原创 2023-06-02 10:17:50 · 616 阅读 · 0 评论 -
Flink实时数仓-01-项目数据格式,ODS层和DIM层搭建
我们的日志结构大致可分为两类,一是普通页面埋点日志,二是启动日志。普通页面日志结构如下,每条日志包含了,当前页面的页面信息,所有事件(动作)、所有曝光信息以及错误信息。除此之外,还包含了一系列公共信息,包括设备信息,地理位置,应用信息等,即下边的common字段。普通页面埋点日志格式启动日志格式启动日志结构相对简单,主要包含公共信息,启动信息和错误信息。示例:业务数据Maxwell数据格式:FlinkCDC读取数据在DIM层用到了FlinkCDC。数仓分析实时数仓分层:采集到 Kaf原创 2023-06-02 10:05:39 · 531 阅读 · 0 评论 -
离线数仓-项目组件安装(Hadoop、Zookeeper、Kafka、Flume、Sqoop、Hive、Hbase)
主要是这个离线数仓项目的组件安装。原创 2023-06-01 15:06:35 · 675 阅读 · 0 评论 -
离线数仓-11-数据质量管理
主要是基于shell和python来编写脚本,进行数据质量的管理,并采用Azkaban进行调度,最后集成第三方告警平台睿象云。原创 2023-06-01 15:02:28 · 830 阅读 · 0 评论 -
离线数仓-10-基于Atlas进行元数据管理
主要介绍了atlas的概念和使用,以及使用atlas进行项目的元数据管理。原创 2023-06-01 14:54:30 · 420 阅读 · 0 评论 -
离线数仓-09-基于Ranger进行权限管理
主要是介绍了ranger,以及基于ranger进行项目的权限管理。原创 2023-06-01 14:46:30 · 1150 阅读 · 0 评论 -
离线数仓-08-基于Kerberos进行用户认证
主要介绍了Kerberos,并且基于kerberos进行用户认证。原创 2023-06-01 14:41:10 · 266 阅读 · 0 评论 -
离线数仓-07-基于Zabbix进行集群监控
主要介绍了Zabbix,以及基于Zabbix进行集群监控。原创 2023-06-01 11:23:16 · 478 阅读 · 0 评论 -
离线数仓-06-基于Kylin进行即席查询
主要详细介绍了kylin,以及在该项目中使用kylin做即席查询。原创 2023-06-01 09:44:02 · 468 阅读 · 0 评论 -
离线数仓-06-基于Presto进行即席查询
主要是介绍了presto,以及基于presto进行即席查询。原创 2023-05-31 11:02:33 · 767 阅读 · 0 评论 -
离线数仓-05-基于Superset进行可视化报表
主要是介绍了superset,以及基于superset进行数仓系统的可视化报表展示。原创 2023-05-31 11:00:01 · 1096 阅读 · 0 评论 -
离线数仓-04-基于Azkaban进行全流程调度
主要是介绍了一下Azkaban,以及基于Azkaban进行项目所涉及的全流程调度。原创 2023-05-31 10:57:05 · 413 阅读 · 0 评论 -
离线数仓-03-数仓系统搭建(ODS,DIM,DWD,DWS,ADS)
主要是介绍数仓系统的基础概念和理论,以及基于理论进行的项目数仓搭建,主要是基于Hive搭建了ODS、DIM、DWD、DWS、ADS这几层。原创 2023-05-31 10:52:43 · 2295 阅读 · 0 评论 -
离线数仓-02-业务数据采集
主要介绍业务数据采集用到的表和使用Sqoop进行业务数据采集。原创 2023-05-31 10:48:12 · 226 阅读 · 0 评论 -
离线数仓-01-项目介绍和用户行为数据采集
主要介绍项目整体结构以及用户行为数据采集,以及埋点等。原创 2023-05-31 10:39:26 · 1655 阅读 · 0 评论 -
Spark实时数仓的项目实现
离线计算一般指通过批处理的方式计算已知的所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间较长。例如今天凌晨一点,把昨天累积的日志,计算出所需结果。最经典的就是 Hadoop 的 MapReduce 方式;一般需要根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。离线计算的特点:实时计算一般是指通过流处理方式计算当日的数据都算是实时计算。也会有一些准实时计算,利用离线框架通过批处理完成(小时、10 分钟级)的计算,一般为过渡产品,不能算是实时计算。实时计算的特点:局部计算。每原创 2022-09-21 21:29:01 · 2671 阅读 · 0 评论 -
乐优商城项目实战
项目背景了解电商行业了解乐优商城项目结构能独立搭建项目基本框架能参考使用ES6的新语法项目分类主要从需求方、盈利模式、技术侧重点这三个方面来看它们的不同传统项目各种企业里面用的管理系统(ERP、HR、OA、CRM、物流管理系统…)需求方:公司、企业内部盈利模式:项目本身卖钱技术侧重点:业务功能互联网项目门户网站、电商网站:baidu.com、qq.com、taobao.com、jd.com …需求方:广大用户群体盈利模式:虚拟币、增值服务、广告收益…技术侧重点:网站原创 2020-10-19 16:15:31 · 3064 阅读 · 2 评论 -
在线考试系统(微服务,前后端分离)
项目基本功能 本在线考试系统主要完成了用户注册,根据用户名和密码实现注册用户登录,分为账号密码登录,短信登录,邮箱登录用户信息填写,用户基本信息填写(头像,名称,年龄,地区,学号,手机号,邮箱号)。用户信息搜索,根据输入的关键字进行信息检索,查看用户的数据。可以通过聚合条件检索。管理员可以查看完整数据和统计信息。用户管理,管理员可以查看用户的相关数据,并进行管理员的分配。考生管理,管理员考生考试的管理,可以查看考生考试的信息,考生试卷,重置试卷,再次考试,无条件删除考生订阅信息。学科管理,原创 2020-07-19 13:28:46 · 5593 阅读 · 4 评论