大数据
文章平均质量分 87
hellozhxy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
了解StarRocks
在以往的案例中,我们经过分区分桶的操作,加上 StarRocks 的水平扩容的能力,可 以支撑万级别的并发量。目前大部分的 MPP 计算 引擎都是使用 RBO 的模式,也就意味着我们在写 SQL 的时候,要手动的进行 SQL 的优 化,比如说大表与小表谁在前谁在后,WHERE 条件中那些谓词选择性高我们要放在前面, 在比如说,我们在开发中,可能会按照业务的逻辑写一些子查询,在优化的时候,我们可能 需要将这些子查询改写为反业务逻辑的多表关联操作。随着越来越多的企业都使用数据驱动决策,数据的价值也被逐步释放。转载 2023-02-14 12:01:34 · 3433 阅读 · 0 评论 -
基于 Hudi 的湖仓一体技术在 Shopee 的实践
湖仓一体(LakeHouse)作为大数据领域的重要发展方向,提供了流批一体和湖仓结合的新场景。目前,企业许多业务中会遇到的数据及时性、准确性,以及存储的成本等问题,都可以通过湖仓一体方案得到解决。当下,几个主流的湖仓一体开源方案都在不断迭代开发中,业界的应用也都是在摸索中前行,在实际的使用中难免会遇到一些不够完善的地方和未支持的特性。Shopee 内部在使用过程中基于开源的 Apache Hudi 定制了自己的版本,以实现企业级的应用和一些内部业务需求的新特性。通过引入 Hudi 的 Data la转载 2022-11-14 18:05:55 · 894 阅读 · 0 评论 -
星型模型与雪花模型的区别、分别有哪些优缺点
雪花模型和星型模型转载 2022-10-14 18:06:44 · 577 阅读 · 0 评论 -
数据仓库系列:星型模型和雪花型模型
在实际工作中多维分析的商业智能解决方案,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。转载 2022-10-14 17:50:34 · 1337 阅读 · 0 评论 -
企业数据仓库技术架构
数据仓库自上世纪九十年代提出以来,技术架构一直在不断更新,尤其是进入二十一世纪以来,随着大数据相关技术的发展,数据仓库架构经历了多次升级。本文首先讲解了数据仓库的一些基本知识,包括什么是数据仓库、数据仓库和数据库的区别、数据仓库中的一些基本概念,以及数据仓库包含的层级,接着对各代数据仓库的架构一一进行讲解,从传统数仓,到大数据数仓,再到实时数仓,直到最新的湖仓一体。转载 2022-10-14 17:41:58 · 2584 阅读 · 0 评论 -
什么是数据仓库?大数据实时数仓建设架构图,及应用案例介绍
本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。转载 2022-10-12 11:59:04 · 2359 阅读 · 0 评论 -
神策数据:营销策略引擎解读,以平台化构建营销新生态
营销中台下的策略引擎营销策略引擎平台化新一代流程画布转载 2022-10-12 10:17:31 · 1115 阅读 · 0 评论 -
知乎数据集成平台建设实践
摘要:本文由知乎技术平台负责人孙晓光分享,主要介绍知乎 Flink 数据集成平台建设实践。内容如下: 业务场景 历史设计 全面转向 Flink 后的设计 未来 Flink 应用场景的规划 01业务场景很高兴和大家分享近期知乎以 Flink 为基础,重构上一代数据集成平台过程中的一些收获。数据集成平台作为连接各种异构数据的纽带,需要连接多种多样的存储系统。而不同的技术栈和不同的业务场景会对数据集成系统提出不同的设计要求。我们首先来看一下在知乎内部数据集.转载 2021-05-11 14:19:36 · 422 阅读 · 0 评论 -
Hbase 学习笔记
HBASE由Google的Bigtable设计而来的面向列族的存储的非关系数据库,主要偏向适合数据分析。优点和缺点列式数据库优点,列式数据库会把相同列的数据都放在一块即列为单位存储。当我们查询某一列的时候只需要调出相应的块即可,这样还可以减少很多I/O。高压缩比如果数据元素间的相似性很高的话可以进行大幅度的压缩,相似度越高压缩比越大。即节约了空间又减少了I/O,从而提高性能。高并发,极易扩展Hbase的极易扩展主要体现在两个方面,一个是基于上层处理能力(Region...转载 2020-09-10 15:00:47 · 397 阅读 · 0 评论 -
ClickHouse 在字节跳动广告场景的应用
上一篇 ClickHouse 文章:ClickHouse在用户增长分析场景的应用分享嘉宾:董一峰,2016年加入字节跳动OLAP团队,一直从事大数据查询引擎的开发和推广工作,先后负责Hive,Spark,Durid,ClickHouse等大数据引擎,目前主要聚焦于ClickHouse执行层相关的研发业务背景:大家都知道,广告对于很多互联公司来说,都是主要的收入,当然字节跳动也是如此。目前clickhouse在字节跳动在线服务和离线服务都有所涉及。下面来给大家分享一下clickho...转载 2020-08-08 16:01:10 · 959 阅读 · 0 评论 -
pandas数据处理
pandas在处理一维度数据和二维数据很是在行,在实际生产环境中应用十分广泛。我们直奔主题,本文主要讲解它的两个核心数据结构:Series 和 DataFrame。一,Series (一维,带有标签的数组)ta是个定长的字典序列。说是定长是因为在存储的时候,相当于两个 ndarray,一个数组构成对象的键(index),另一个构成对象的值(values)这也是和字典结构最大的不同。因为在字典的结构里,元素的个数是不固定的。ta有两个基本属性:index 和 values。在 Seri..转载 2020-08-05 11:21:53 · 568 阅读 · 0 评论 -
跨境电商 Shopee 的实时数仓之路
导读:本文讲述 Flink 在 Shopee 新加坡数据组 ( Shopee Singapore Data Team ) 的应用实践,主要内容包括: 实时数仓建设背景 Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景 实时任务监控 Streaming SQL 平台化 Streaming Job 管理 未来规划优化方向 建设背景Shopee 是东南亚与台湾领航电商平台,覆盖新加坡、马来西亚、菲律宾、台湾、印...转载 2020-07-06 19:36:11 · 1110 阅读 · 1 评论
分享