
数据仓库
javastart
专注于大数据 AI
展开
-
Flink 1.14流批一体新特性
摘要:本文由社区志愿者陈政羽整理,内容源自阿里巴巴技术专家宋辛童 (五藏) 在 8 月 7 日线上 Flink Meetup 分享的《Flink 1.14 新特性预览》。主要内容为:简介流批一体Checkpoint 机制性能与效率Table / SQL / Python API总结一、简介1.14 新版本原本规划有 35 个比较重要的新特性以及优化工作,目前已经有 26 个工作完成;5 个任务不确定是否能准时完成;另外 4 个特性由于时间或者本身设计上的原因,会放到后..原创 2022-03-20 16:10:00 · 119 阅读 · 0 评论 -
flink 流批一体
目录当我们谈论批流一体,我们在谈论什么? 一、流计算与批计算 一)流计算与批计算 二)流计算与批计算的比较 三)为什么要搞流批一体 二、流批一体的场景 一)数据集成的流批一体 二)数仓架构的流批一体 三)数据湖的流批一体 四)存储的流批一体 1.Pulsar 2.Hologres 1)Hologres的架构图 2)Hologres的流批一体 三、Flink中的流批一体 一)流批一体的DataStream 1.目前的原创 2022-03-12 18:39:43 · 3058 阅读 · 0 评论 -
《实时数仓入门课程》-flinksql
课程介绍1.课程名称《实时数仓入门课程》2.课程介绍《实时数仓入门训练营》由阿里云研究员王峰、阿里云高级产品专家刘一鸣等实时计算 Flink 版和 Hologres 的多名技术/产品一线专家齐上阵,合力搭建此次训练营的课程体系,精心打磨课程内容,直击当下同学们所遇到的痛点问题。由浅入深全方位解析实时数仓的架构、场景、以及实操应用,7 门精品课程帮助你 5 天时间从小白成长为大牛!3.课程目录【第一课】《实时计算 Flink 版总体介绍》课程简要:实时计算 Flink ..转载 2022-03-05 11:54:12 · 57 阅读 · 0 评论 -
Clickhouse 实践之路
陌上闻笛关注82021.01.23 18:09:29字数 5,791阅读 5,381背景在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具体案例说明Clickhouse的实践过程。Clickhou...转载 2021-06-22 18:58:23 · 261 阅读 · 0 评论 -
大数据时代的争议:Spark 能替代 Hive 吗?
https://cloud.tencent.com/developer/article/1357435本文作者:曾就职传统通讯运营商,负责BI项目的开发;目前转型互联网公司,就职于某厂负责相关的大数据仓库建设工作。 随着的几年的架构沉淀,工作上形成了离线以 Hive 为主,Spark 为辅, 实时处理用 Flink 的大数据架构体系及 Impala, Es,Kylin 等应用查询引擎。随着业务的发展,日常工作中会面试各种各样的人,接触下来发现一个比较奇怪的现象:学习 Spark 的面试者普遍转载 2021-02-21 11:28:10 · 443 阅读 · 0 评论 -
大数据清洗、转换工具——ETL工具概述
https://blog.csdn.net/baidu_41937166/article/details/99114771?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_baidulandingword-2&spm=1001.2101.3001.4242ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端...原创 2021-02-17 21:11:13 · 2313 阅读 · 1 评论 -
实时数仓|基于Flink1.11的SQL构建实时数仓探索实践
实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。本文会分享基于Flink SQL从0到1搭建一个实时数仓的demo,涉及数据采集、存储、计算、可视化整个处理流程。通过本文你可以了解到:实时数仓的基本架构 实时数仓的数据处理流程 Flink1.11的SQL新特性 Flink1.11存在的bug 完整的操作案例古人...原创 2021-02-12 11:51:25 · 225 阅读 · 0 评论 -
数据仓库开发之路之三--时间维度的创建
在数据仓库中,无一例外地需要和时间维度打交道,因此设计合理的时间维度,也是一个数据仓库项目开始必备的资源储备,如果有这方面的积累,就不用到处寻找合适的设计模型以及存储过程的代码了,否则可能需要花费一定的时间去寻找符合该项目合适的存储过程,或者自己动手编写。一般来说,时间维度的创建要根据实际的数据仓库应用来,基本上可以分为天、月的时间维度表,更细的可以分为半小时时间段,小时时间段等等,一般数据量大的时间维度都是利用存储过程来生成的。下面介绍一些时间维度表的设计结构。<1>...转载 2021-02-10 17:28:15 · 320 阅读 · 0 评论 -
深度解读 Flink 1.11:流批一体 Hive 数仓
Flink 1.11 features 已经冻结,流批一体在新版中是浓墨重彩的一笔,在此提前对 Flink 1.11 中流批一体方面的改善进行深度解读,大家可期待正式版本的发布。Flink 1.11 中流计算结合 Hive 批处理数仓,给离线数仓带来 Flink 流处理实时且 Exactly-once 的能力。另外,Flink 1.11 完善了 Flink 自身的 Filesystem connector,大大提高了 Flink 的易用性。数仓架构离线数仓传统的离线数仓...转载 2021-02-03 18:58:46 · 213 阅读 · 0 评论 -
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
OPPO 实时数仓的演进思路; 基于 Flink SQL 的扩展工作; 构建实时数仓的应用案例; 未来工作的思考和展望。一.OPPO 实时数仓的演进思路1.1.OPPO 业务与数据规模大家都知道 OPPO 是做智能手机的,但并不知道 OPPO 与互联网以及大数据有什么关系,下图概要介绍了 OPPO 的业务与数据情况:OPPO 作为手机厂商,基于 Android 定制了自己的 ColorOS 系统,当前日活跃用户超过 2 亿。围绕 ColorOS,OPPO 构建了很多互联...转载 2020-09-24 15:12:40 · 102 阅读 · 0 评论 -
数仓字段血缘解析实现—hive版
【本文大纲】1、字段血缘分析的意义2、实现方案选择3、实现过程4、总结字段血缘分析的意义数仓经常会碰到的两类问题:1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数据回溯问题2、基础数据表因某种原因需要修改字段,需要评估其对数仓的影响,费时费力,然后...转载 2020-05-04 13:46:35 · 4820 阅读 · 3 评论 -
架构与模型设计 -数仓分层
在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。数据仓库的分层和各层级用途如下图所示。数据引入层ODS(Operation Data Store):存放未经过处理的原始数据至数...转载 2020-04-18 22:27:00 · 683 阅读 · 0 评论