自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Apache Hudi的流批一体架构实践某宝

一、前言当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。二、 模型特征架构的演进2.1 第一代架构广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计、特征推送和特征获取模型训练。如下图所示:客户端以及服务端数据先通过统一服务Sink到HDFS上基于基HDFS数据,统计特定.

2021-07-03 18:59:58 1325 1

原创 中台--阿里中台

愿化身为孤岛的鲸,生于海,归于海,长于海,隐于海。一、什么是中台?按照数据咨询公司Thoughtworks首席咨询师王健给出的10个字定义,中台就是:“企业级的能力复用平台”“企业级”划定了中台的范围,区分开了单系统的服务化与微服务。“能力”指定了中台的主要承载对象,能力的抽象解释了各种各样中台的存在。“复用”定义了中台的核心价值,过去的平台化对于易复用性并没有给予足够关注。中台的兴起,使得人们的目光更多的从平台内部,转换到平台对于前台业务的支撑上。“平台”说明了中台的主要形式,区别

2021-06-17 15:14:18 1275

原创 ClickHouse实战--同步mysql(二)源码解析

六 、源码分析6.1 概述在最新源码 (v20.13.1.1) 中,ClickHouse 官方对 DatabaseMaterializeMySQL 引擎的相关源码进行了重构,并适配了 GTID 同步模式。ClickHouse 整个项目的入口 main 函数在 /ClickHouse/programs/main.cpp 文件中,主程序会根据接收指令将任务分发到 ClickHouse/programs 目录下的子程序中处理。本次分析主要关注 Server 端 MaterializeMySQL 引擎的工作流.

2021-06-03 23:21:00 438

原创 ClickHouse常见函数基本使用(二)

我在荒岛上迎接黎明,太阳初升时,忽然有十万支金喇叭齐鸣。—王小波13. 数组函数1.数组非空判断相关函数(真为1,假为0)SELECT empty([]), empty([1,2,3]), notEmpty([1,2,3]), notEmpty([]);2.数组长度 length() 返回数组中的元素个数。**结果类型是UInt64。该函数也适用于字符串。SELECT-- length(), -- 出现异常-- length([true, false]), -- 异常-- len

2021-05-26 21:55:38 3206

原创 ClickHouse常见函数基本使用(一)

尽情玩耍,尽情学习,尽情长大;在需要的时候释放善意,在必要的时候展现强硬;找到热爱的事,找到值得爱的人,然后为了他们全力以赴。—巴克曼1. 检测函数类型(clickhouse中数据的类型)SELECT toTypeName(0);-- UInt8(三位数为8)SELECT toTypeName(-0);-- Int8SELECT toTypeName(-343);-- Int16SELECT toTypeName(12.43); -- Float64(默认浮点型的数据为64),所以一般在处

2021-05-26 21:00:47 7307 2

原创 Clickhouse数据类型

1 整数类型Int RangesInt8 - [-128 : 127]Int16 - [-32768 : 32767]Int32 - [-2147483648 : 2147483647]Int64 - [-9223372036854775808 : 9223372036854775807]Uint RangesUInt8 - [0 : 255]UInt16 - [0 : 65535]UInt32 - [0 : 4294967295]UInt64 - [0 : 1844674407370

2021-05-22 12:19:10 185

原创 spark之OOM常见问题梳理(一)

我想变成那陪着疲倦的你一直看海的小小的白色的椅子。—王小波一、Spark报错信息问题一1.描述 org.apache.spark.shuffle.FetchFailedException这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常的耗时。图片2.报错提示(1) missing output locationorg.apache.spark.shuffle.MetadataFetchFailedException: Miss

2021-05-19 15:09:49 2046

原创 spark堆内和堆外内存

由于Driver的内存管理较为简单,内存管理主要对Executor的内存管理进行探讨。一、堆内(On-Heap Memory)和堆外(Off-Heap Memory)内存规划​ Executor作为一个JVM进程,Executor的内存管理建立在JVM的内存管理之上。Spark对堆内内存进行JVM内存管理,引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用;其中,堆外内存直接向操作系统申请。二、堆内内存(On-Heap Memory)​ 堆内内存概述:

2021-05-17 13:37:41 2518

原创 一文即懂clickhouse & 百亿级别实战

要是想见,给我打个电话就行。人和人谈不上义务性地见面,想见就见,想见才见。—— 村上春树一、背景ClickHouse是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。目前国内社区火热,各个大厂纷纷跟进大规模使用:今日头条 内部用ClickHouse来做用户行为分析,内部一共几千个ClickHouse节点,单集群最大1200节点,总数据量几十PB,日增原始数据300TB左右。腾讯内部用ClickHouse做游戏数据分析,并且为之建立了一整套监控运维体系。携程内部从18年7月份

2021-05-12 13:11:05 4385

原创 Apache 数据湖Hudi详解一

路径窄处留一步与人行;滋味浓处减三分让人尝。—《菜根谭》1. 什么是Hudi?Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源,HDFS上的分析数据集通过两种类型的表提供服务:读优化表(Read Optimized Table),通过列式存储提供查询性能近实时表(Near-Real-Time Table),提供实时(基于行的存储和列式存储的组

2021-05-09 12:00:32 2409 7

原创 一文即懂hive常用开窗函数

人生有三个基本目标:不作恶,开心,自己养活自己。如果能达到,就是很好的一生了。—冯唐一、窗口函数定义窗口函数(Window Function)是 SQL2003 标准中定义的一项新特性,并在 SQL2011、SQL2016 中又加以完善,添加了若干处拓展。窗口函数不同于我们熟悉的普通函数和聚合函数,它为每行数据进行一次计算:输入多行(一个窗口)、返回一个值。在报表等分析型查询中,窗口函数能优雅地表达某些需求,发挥不可替代的作用。什么是窗口函数?窗口函数出现在 SELECT 子句的表达式列

2021-05-09 11:42:14 848 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除