数据仓库
文章平均质量分 91
数据仓库系列文章
浪尖聊大数据-浪尖
弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。
展开
-
数仓建模方法论
1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据I/O的吞吐。 成本:减少不必要的数据冗余,实现计算结果的复用,降低大数据系统中的存储成本和计算成本。 效率:改善用使用数据的体验,提高使用效率。原创 2021-06-12 20:12:51 · 2534 阅读 · 1 评论 -
再谈双亲委派模型与Flink的类加载策略
作者:LittleMagic原文:https://www.jianshu.com/p/bc7309b03407类加载我们知道,在JVM中,一个类加载的过程大致分为加载、链接(验证、准备、...转载 2021-01-19 11:40:00 · 278 阅读 · 1 评论 -
漫画|讲解一下如何写简历&项目
star法写项目的案例:深圳浪尖聊大数据有限公司2018.3-至今日志中心建设项目周期2020.2.10-2020.4.20成就经历简述2020.2.10-2020.5.20,在深圳...原创 2020-11-06 08:19:00 · 937 阅读 · 0 评论 -
淘宝双十一实时显示成交数据是怎么实现的?
阿里会在双 11 的当天竖起一面大的电子屏幕,实时展示淘宝这一天的成绩。例如成交额、访问人数、订单量、下单量、成交量等等。这个电子大屏的背后,就是用到我们所说的数据的实时处理技术。当然实...转载 2020-08-08 12:04:25 · 1412 阅读 · 0 评论 -
2.数据湖DeltaLake之DDL操作
前面讲了delta lake简介,特性及基本操作。本文主要是讲DeltaLake的DDL操作,实际上是依赖于spark datasourcev2 和catalog API(3.0+)的,...转载 2020-06-28 23:14:48 · 985 阅读 · 0 评论 -
关于浪尖小蜜圈的一些说明
画虽然最近浪尖比较懒惰,但是浪尖小蜜圈也破千了。首先感谢大家的支持及认可,感觉去年尤其是下半年是浪尖事情比较多的一年,公众号和小蜜圈都懈怠了。还有小蜜圈改版之后提问不会直接通知博主,要博...原创 2020-05-25 00:01:03 · 434 阅读 · 0 评论 -
浪尖2019年文章集合
最近大家都在整理2019年文章,浪尖这边不搞貌似会少很多东西,但是浪尖的文章一直是在菜单栏里面,元旦当天晚上刚刚整理一个版本,需要的可以继续阅读了。简单整理了19年的部分文章吧,虽然下半...原创 2020-01-04 00:11:00 · 419 阅读 · 0 评论 -
Flink通过异步IO实现redis维表join
使用flink做实时数仓的公司越来越多了,浪尖这边也是很早就开发了一个flink 全sql平台来实现实时数仓的功能。说到实时数仓,两个表的概念大家一定会知道的:事实表和维表。在实时输出中...原创 2019-12-24 23:23:46 · 2616 阅读 · 0 评论 -
Flink在多中心/边缘计算上的实践
转自:未知瞬间陈仕明 虎牙数据平台负责人,一直从事数据相关的工作,从最初的企业数仓,到互联网数仓架构,再到大数据系统架构,拥有十年以上的行业经验。在混合云、边缘计算等新...转载 2019-09-07 20:46:17 · 941 阅读 · 0 评论 -
spark面试该准备点啥
最近很多球友都说在准备面试,不知道准备点啥,尤其是spark,实际上星球里浪尖分享的内容真的都掌握了,应对一般面试绝对没问题,但是遗憾的事情是很多人都是处于不会主动搜集资...原创 2019-03-06 22:16:34 · 1235 阅读 · 0 评论 -
Hbase、Kudu和ClickHouse全视角对比
Hbase、Kudu和ClickHouse横向对比V2.0前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心...转载 2021-02-18 17:40:31 · 369 阅读 · 0 评论 -
基于 Flink+Iceberg 构建企业级实时数据湖
Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?本次分...转载 2021-02-09 22:39:00 · 389 阅读 · 0 评论 -
如何成为顶尖的“数据分析师”?10年前辈万字经验
转自:https://www.toutiao.com/i6873267140791632388/这几年越来越多的小伙伴涌入数据分析行业,呈现出井喷现象。每每有读者和学员问我如何转行、行业...转载 2021-01-24 16:54:22 · 517 阅读 · 0 评论 -
浪尖聊聊大数据从业者的迷茫及解决方案
最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办!一 现状目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状:对于整个...原创 2020-12-06 16:08:14 · 1470 阅读 · 5 评论 -
如何构建一个好的电商搜索引擎?
分享嘉宾:邢少敏第四范式 架构师编辑整理:刘员京出品平台:DataFunTalk导读:机器学习算法的不断进步,搜索引擎巧妙的人机交互设计,分布式系统的革新让搜索引擎在不知不觉中成为人们...转载 2020-11-21 17:20:00 · 302 阅读 · 0 评论 -
Apache Kylin 在中通快递的实践
摘要·Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度...转载 2020-11-15 22:06:00 · 323 阅读 · 0 评论 -
基于 Flink SQL CDC 的实时数据同步方案
整理:陈政羽(Flink 社区志愿者)Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化?本文由 Apache Flink PMC,阿...转载 2020-11-03 08:30:00 · 1031 阅读 · 0 评论 -
大数据开源框架技术汇总
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...转载 2020-10-25 09:38:32 · 3244 阅读 · 1 评论 -
如何设计一个流计算基准测试?
阿里妹导读:如何选择适合自己业务的流计算引擎?除了比较各自的功能矩阵外,基准测试(benchmark)便是用来评估系统性能的一个重要和常见的方法。然而在流计算领域,目前还没有一个行业标准...转载 2020-09-19 22:14:45 · 432 阅读 · 1 评论 -
一篇文章说清楚如何提升大数据质量-InfoQ
正如大家所知,大数据建设的目标是为了融合组织数据,增加组织的洞察力和竞争力,实现业务创新和产业升级。而提高数据质量是为了巩固大数据建设成果,解决大数据建设成果不能满足业务要求的问题。并且...转载 2020-07-19 22:57:48 · 679 阅读 · 0 评论 -
实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作
供稿 |eBay ADI-Carmel Team作者| 金澜涛编辑 | 顾欣怡本文7309字,预计阅读时间22分钟导读本文介绍eBay Carmel团队利用Delta Lake,使S...转载 2020-06-29 08:48:57 · 574 阅读 · 0 评论 -
QQ音乐PB级ClickHouse实时数据平台架构演进之路
导语 |OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值。本文基于QQ音乐海量大数据实时分...转载 2020-06-04 00:04:24 · 722 阅读 · 1 评论 -
Flink在滴滴的应用与实践进化版
本文整理自Flink Forward 全球在线会议 ,分享者薛康,滴滴实时平台负责人,主要是是从以下四个方面介绍,flink在滴滴的应用与实践:Flink服务概览StreamSQL实践实...原创 2020-05-05 00:06:20 · 671 阅读 · 0 评论 -
滴滴 3000+ Kylin Cube 背后的实践经验揭秘
本次分享主要有三个部分:Kylin 在滴滴的整体应用、架构的实践经验、滴滴全局字典最新版本的实现以及 Kylin 最新实时 OLAP 探索经验分享。Kylin 在滴滴的应用&架构...转载 2020-04-26 00:03:25 · 602 阅读 · 0 评论 -
从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践
摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主...转载 2020-02-18 15:11:37 · 326 阅读 · 0 评论 -
Hadoop YARN:调度性能优化实践
背景YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机...转载 2020-01-17 21:00:00 · 386 阅读 · 0 评论 -
大数据平台架构设计探究
近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘、识别、利用数据资产。...转载 2020-01-05 22:08:42 · 679 阅读 · 0 评论 -
架构选型之痛,如何构造 HTAP 数据库来收敛技术栈?
HTAP,是目前数据库领域比较流行的一个新理念。近日,国际顶级专业分析机构 451 Research 发表了一篇关于 TiDB 的报告《PingCAP eyes US m...转载 2019-10-01 22:53:49 · 370 阅读 · 0 评论 -
阿里HBase的数据管道设施实践与演进
云栖君导读:第九届中国数据库技术大会,阿里巴巴技术专家孟庆义对阿里HBase的数据管道设施实践与演进进行了讲解。主要从数据导入场景、 HBase Bulkload功能、H...转载 2019-04-07 22:21:25 · 418 阅读 · 0 评论 -
HBase在滴滴出行的应用场景和最佳实践
本文主要介绍HBase在滴滴内部的一些典型使用场景,如何设计整个业务数据流,让平台开发者与用户建立清晰、明确、良好的合作关系背景对接业务类型HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库结构,所以同时也对接了很多线上业务。在线业务对访问延迟敏感,并且访问趋向于随机,如订单、客服轨迹查询。离线业务通常是数仓的定时大批量处理任务转载 2017-12-16 00:00:00 · 1643 阅读 · 2 评论 -
Iceberg 数据湖 CDC 数据实时读写方案及原理
摘要:本文由李劲松、胡争分享,社区志愿者杨伟海、李培殿整理。主要介绍在数据湖的架构中,CDC 数据实时读写的方案和原理。文章主要分为 4 个部分内容:常见的 CDC 分析方案为何选择 Fl...转载 2021-03-08 12:07:20 · 1795 阅读 · 0 评论 -
硬核干货 | 基于Impala的网易有数BI查询优化总结
本文总结了Impala在网易有数BI应用场景下的最新查询优化经验,并探讨后续进一步优化的思路。文章首先简述有数BI + Impala在网易云音乐等业务使用时遇到的挑战,再介绍进行有数查询优...转载 2021-03-02 17:40:00 · 893 阅读 · 0 评论 -
Flink 助力美团数仓增量生产
摘要:本文由美团研究员、实时计算负责人鞠大升分享,主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括:数仓增量生产流式数据集成流式数据处理流式OLAP应用未来规划Tips:...转载 2021-02-10 22:19:45 · 172 阅读 · 0 评论 -
每个大数据工程师都应该知道的OLAP 核心知识点
OLAP 系统广泛应用于 BI, Reporting, Ad-hoc, ETL 数仓分析等场景,本文主要从体系化的角度来分析 OLAP 系统的核心技术点,从业界已有的 OLAP 中萃取其...转载 2021-01-03 11:56:57 · 503 阅读 · 0 评论 -
基于Flink打造实时计算平台为企业赋能
本文是清香白莲在知乎的分享,很有借鉴意义,分享给大家。原文地址:https://zhuanlan.zhihu.com/p/143169143随着互联网技术的广泛使用,信息的实时性对业务的...转载 2020-12-31 08:30:00 · 662 阅读 · 0 评论 -
Flink 1.11中对接Hive新特性及如何构建数仓体系
分享嘉宾:李锐 阿里巴巴 技术专家编辑整理:马小宝出品平台:DataFunTalk导读:Flink从1.9.0开始提供与Hive集成的功能,随着几个版本的迭代,在最新的Flink 1.1...转载 2020-12-09 11:45:00 · 263 阅读 · 1 评论 -
Impala在网易大数据的优化和实践
文章作者:温正湖网易杭研编辑整理:张博出品平台:DataFunTalk导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与...转载 2020-10-20 08:30:00 · 480 阅读 · 0 评论 -
OLAP系统核心技术点,每一点都值得单独收藏
OLAP系统广泛应用于BI、Reporting、Ad-hoc、ETL数仓分析等场景,本文主要从体系化的角度来分析OLAP系统的核心技术点,从业界已有的OLAP中萃取其共性,分为谈存储,谈...转载 2020-10-07 22:50:44 · 494 阅读 · 1 评论 -
建议收藏!浅谈OLAP系统核心技术点
文章来自知乎,作者:neoReMinDOLAP系统广泛应用于BI、Reporting、Ad-hoc、ETL数仓分析等场景,本文主要从体系化的角度来分析OLAP系统的核心技术点,从业界已有...转载 2020-08-25 23:15:08 · 737 阅读 · 1 评论 -
OLAP数仓进阶:主流开源OLAP系统的分类及核心技术点
作者介绍温正湖,网易杭研高级数据库技术专家,数字产业事业部大数据产品中心OLTP和OLAP内核团队负责人。负责网易大数据OLAP系统和OLTP关系型数据库内核相关的开发和运维工作。毕业1...转载 2020-08-18 11:35:19 · 1939 阅读 · 0 评论