自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(40)
  • 收藏
  • 关注

转载 4W字全面解读数据中台、数据仓库和数据湖

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数...

2021-07-31 09:30:00 543

转载 关于数仓建设及数据治理的超全概括

本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!在谈数仓之前,先来看下面几个问题:数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(...

2021-07-30 09:00:00 465

转载 数据仓库体系建模&实施&注意事项小总结

什么是数仓从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。这里我们会遇到一个问题就是同样是存放数据的仓库,那数据库和...

2021-07-29 09:00:00 422

转载 谈谈ClickHouse性能情况以及相关优化

ClickHouse性能情况主要分为4个方面1、单个查询吞吐量场景一:如果数据被放置在page cache中,则一个不太复杂的查询在单个服务器上大约能够以2-10GB/s(未压缩)的速度进...

2021-07-29 09:00:00 3860

转载 阿里巴巴数据中台12年建设与实践

编者按:从2016年诞生起,“中台”概念就一路火热至今,对互联网与传统行业数字化转型产生了极为深远的影响。作为“中台”概念的提出者和先行者,阿里巴巴用12年的实践探索了中台能力建设和数...

2021-07-28 09:00:00 315

转载 kafka存储结构以及Log清理机制

本文主要聚焦 kafka 的日志存储以及日志清理相关。日志存储结构首先我们来看一张 kafak 的存储结构图。如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的,这里...

2021-07-28 09:00:00 208

转载 PB 级数据即席查询基于 Flink 的实践

首先做一个简单的个人以及团队介绍。我们来自 360 政企安全集团,目前主要从事 360 安全大脑的 “威胁狩猎“ 项目的开发工作。我们团队接触 Flink 的时间比较早,在此期间,我们基于...

2021-07-27 09:00:00 247

转载 老板要我开发一个简单的工作流引擎

来源:cnblogs.com/duck-and-duck/p/14436373.html第1关一天,老板找到我,说要做个简单的工作流引擎。我查了一天啥是工作流,然后做出了如下版本:图片按顺...

2021-07-26 09:54:18 132

转载 实战 | flink sql 与微博热搜的碰撞!!!

1.序篇通过本文你可以 get 到:背景篇定义篇-属于哪类特点的指标数据应用篇-预期效果是怎样的难点剖析篇-此类指标建设、保障的难点数据建设篇-具体实现方案详述数据服务篇-数据服务选型数据...

2021-07-26 09:54:18 544

转载 实时数仓不保障时效还玩个毛?

❝我要更快、更快更快!!!❞通过本文你可以 get 到:起因篇-为什么要做数据时效保障定义篇-数据时效保障包含哪些内容目标篇-时效性监控以及保障的目标机制篇-怎么去做数据时效监控以及保障效...

2021-07-25 10:00:00 429

转载 5 款强大的 JVM 性能调优监控工具 ,挺香

来源 | www.iteye.com/blog/josh-persistence-2161848现实企业级Java应用开发、维护中,有时候我们会碰到下面这些问题:OutOfMemoryEr...

2021-07-25 10:00:00 180

转载 全面解读数据中台、数据仓库和数据湖

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数...

2021-07-24 12:39:00 1195

转载 Hive 拉链表实践

背景拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记录历史。记录一个事务从开始一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储...

2021-07-24 12:39:00 225

转载 聊聊维度建模的灵魂所在——维度表设计

前言维度表是维度建模的灵魂所在,在维度表设计中碰到的问题(比如维度变化、维度层次、维度一致性、维度整合和拆分等)都会直接关系到维度建模的好坏,因此良好的维表设计就显得至关重要,今天就让我们...

2021-07-22 09:34:05 315

转载 维度建模技术实践——深入事实表

事实表是维度建模的核心表和基本表。它存储了业务过程中的各种度量和事实,而这些度量和事实正是下游数据使用人员所要关心和分析的对象。目前事实表主要探讨三种:事务事实表快照事实表累计快照事实表还...

2021-07-22 09:34:05 316

转载 OLAP黑马利器ClickHouse实战应用

极简,几乎是所有工具类产品的终极目标。对于数据库工具而言尤为如此:应对多样化的数据分析场景,需要简洁、统一的大数据分析体系数据查询秒级响应,以保证企业管理者和相关业务人员的工作效率数据报...

2021-07-21 09:00:00 605

转载 企业大数据平台仓库架构建设思路

作者介绍李金波,阿里云高级技术专家,大数据数仓解决方案总架构师,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾任数据魔方、淘宝指数的数据架构设计专家。本文作者主要从...

2021-07-21 09:00:00 161

转载 Spark处理的一些业务场景

Sparksql在处理一些具体的业务场景的时候,可以通过算子操作,或者RDD之间的转换来完成负责业务的数据处理,在日常做需求的时候,整理出来一下几个经典的业务场景的解决方案,供大家参考。1...

2021-07-20 09:00:00 247

转载 浅谈数仓模型(维度建模)

背景数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓架构的原则:1、底层业务的数据驱动为导向同时结合业务需求驱动2、便于数据分...

2021-07-19 09:00:00 427

转载 MySQL 亿级数据分页的优化

背景下班后愉快的坐在在回家的地铁上,心里想着周末的生活怎么安排。突然电话响了起来,一看是我们的一个开发同学,顿时紧张了起来,本周的版本已经发布过了,这时候打电话一般来说是线上出问题了。果然...

2021-07-19 09:00:00 157

转载 《稀缺:我们是如何陷入贫穷与忙碌的》读后感

推荐<<稀缺>>容易被忽略的稀缺状态?当你拆东墙补西墙,不停地还贷款,最后发现自己还是在原地兜圈子,捉肘见襟的状况根本没有改变? 如果出现这种情况,说明你已经陷入了...

2021-07-18 10:34:51 184

转载 浅谈Hbase在用户画像上的应用

背景用户画像,即用户信息标签化,是大数据精细化运营和精准营销服务的基础。设计从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户...

2021-07-18 10:34:51 987

转载 关于数仓基础知识的超全概括!

大家好!周末和大家分享一些数仓基础知识的小集锦,希望能对你有些帮助~1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1...

2021-07-17 09:30:00 602

转载 深度解析 Lucene 轻量级全文索引实现原理

作者:vivo互联网服务器团队-Qian Yulun一、Lucene简介1.1 Lucene是什么?Lucene是Apache基金会jakarta项目组的一个子项目;Lucene是一个开放...

2021-07-16 09:00:00 142

转载 用Spark Streaming实时计算海量用户UV

提出需求实时统计业务系统(web,APP之类)的访问人数,即所谓UV,或者DAU指标.这个需求怕是流计算最最最常见的需求了.计算UV的关键点就在于去重,即同一个人访问两次是只计一个UV的....

2021-07-15 09:00:00 267

转载 Hadoop小文件存储方案 - ballwql - 博客园

HDFS总体架构在介绍文件存储方案之前,我觉得有必要先介绍下关于HDFS存储架构方面的一些知识,在对架构有初步了解后,才会明白为什么要单独针对小文件展开介绍,小文件存储和其它文件存储区别在...

2021-07-14 11:27:00 499

转载 数据仓库架构以及数据模型的设计

1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源...

2021-07-13 09:00:00 2345

转载 元数据管理与企业数据运营!

元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。— 01—企业数据治理的现状与问题企业架构理论体系中,数据架构始终是企业架构的核心组成部分。TOGAF企业...

2021-07-12 08:49:00 329

转载 趣谈 23 种设计模式(多图 + 代码)

来源:javadoop.com/post/design-pattern创建型模式简单工厂模式工厂模式抽象工厂模式单例模式建造者模式原型模式创建型模式总结结构型模式代理模式适配器模式桥梁模式...

2021-07-12 08:49:00 250

转载 Hive MetaStore 在遇到的挑战与优化

导读:快手基于Hive构建数据仓库,并把Hive的元数据信息存储在MySql中,随着业务发展和数据增长,一方面对于计算引擎提出了更高的要求,同时也给Hive元数据库的服务稳定性带来了巨大的...

2021-07-11 12:57:20 1184

转载 京东实时数据仓库开发实践

导读:本文主要介绍京东实时数据仓库技术的过去和未来,使用Delta Lake完成离线数据的增量更新,建设批流一体开发分析体系简化传统数据仓库架构,以及京东的业务场景在数据湖上的落地经验和技...

2021-07-11 12:57:20 512

转载 从面试角度详解Kafka

Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。思维导图讲一讲分布式消息中间件问题什么...

2021-07-10 10:47:07 158

转载 巧用 Stream API 优化 Java 代码

来源:juejin.cn/post/6844903945005957127使用Stream API优化代码Java8的新特性主要是Lambda表达式和流,当流和Lambda表达式结合起来一...

2021-07-10 10:47:07 68

转载 Kafka 事务的实现原理

- 前言 -Kafka 事务在流处理中应用很广泛,比如原子性的读取消息,立即处理和发送,如果中途出现错误,支持回滚操作。这篇文章来讲讲事务是如何实现的,首先来看看事务流程...

2021-07-08 09:00:00 526

转载 ClickHouse要了解的骚气join操作

原文链接:https://zhuanlan.zhihu.com/p/377506070JOIN操作是OLAP场景无法绕开的,且使用广泛的操作。对ClickHouse而言,非常有必要对分布式...

2021-07-08 09:00:00 1996

转载 安利-数据质量中心的设计与实现

日常工作中,数据开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的 BUG 导致产出的数据结果不可信。而这个问题的发现可能会经历一个较长的周...

2021-07-07 08:59:38 312

转载 Redis实现消息队列的4种方案

Redis作为内存中的数据结构存储,常用作数据库、缓存和消息代理。它支持数据结构,如 字符串,散列,列表,集合,带有范围查询的排序集(sorted sets),位图(bitmaps),超级...

2021-07-06 10:39:09 639

转载 京东物流基于Doris的亿级数据自助探索应用

分享嘉宾:刘笑言 京东物流 数据工程师编辑整理:张进东出品平台:DataFunTalk导读:京东智慧物流在数据应用方面,主要是基于大数据预测分析技术实现智能化的调度、决策,提升物流效率,最...

2021-07-04 11:02:26 403

转载 快手从模型规范开始的数据治理实践

快手从模型规范开始的数据治理实

2021-07-02 09:31:26 177

转载 Flink 1.13,State Backend 优化及生产实践分享

摘要:本文由社区志愿者佳伟整理,内容来源自 Apache Flink Committer、阿里巴巴高级开发工程师唐云(茶干) 在 5 月 22 日北京站 Flink Meetup 分享的 ...

2021-07-01 09:14:00 461

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除