自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(157)
  • 收藏
  • 关注

原创 AI数智助手

NL2Sql AI数智助手

2024-03-19 11:36:28 872

原创 埋点平台一分钟

数据采集实战:商品详情页数据埋点

2023-12-04 17:43:01 62

原创 CDC(Change Data Capture)一分钟

推荐一款比Flink CDC更好用的免费CDC工具

2023-11-27 19:19:59 72

原创 实时标签引擎一分钟

数据中台实战:以圆猿买手为案例谈如何从0到1搭建实时标签引擎

2023-11-27 19:18:49 168

原创 推荐系统一分钟

基于标签的推荐系统必须要解决的4个核心问题

2023-11-27 17:54:30 31

原创 AI大模型

收集数据->数据清洗(去重、null值处理等)->数据划分(训练、验证、参数调整等数据划分)->模型选择->模型训练(GPU加速等)->模型评估(测试数据集测试准确度、召回率等)->模型部署(flask转换为api、docker)

2023-11-22 19:36:00 374

原创 指标管理系统

参考

2023-11-20 15:00:36 132

原创 树形数据存储

聊聊mysql的树形结构存储及查询

2023-11-10 17:26:38 27

原创 数据之路一分钟

​网易数帆数据治理演进网易-有数学堂

2023-08-21 17:40:22 45

原创 数据仓库一分钟

直接点讲,就是大部分(80%以上)的需求,都用DWS的表来支持就行,DWS支持不了的,就用DWM和DWD的表来支持,这些都支持不了的极少一部分数据需要从原始日志中捞取。在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。“面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。

2023-08-21 11:39:20 1053

原创 Trino一分钟

Trino主要是由Client、Coordinator、Worker以及Connector来构成。

2023-08-18 18:10:39 84

原创 JVM监控-Arthas、Mat

快捷生成命令。

2023-08-03 19:45:14 303

原创 元数据系统

数据血缘落地实践

2023-07-07 14:44:15 14

原创 Doris一分钟

官网

2023-07-04 19:08:19 127

原创 实时数仓Flink+Iceberg

参考

2023-07-03 16:00:46 76

原创 Hive一分钟

对于外部表,删除表格时,仅删除元数据(meta data)。因为会有多人操作数据仓库,可能会产生数据表误删除操作,为了数据安全性,通常会使用外部表。对于内部表,删除表格时,删除元数据(meta data)和存储数据,即表格,以及对应表格的数据文件。1.分区表是将大的表文件划分成多个小文件以利于查询,但是如果数据分布不均衡,也会影响查询效率。3.物理上,每个桶就是表和分区目录里的一个文件,一个作业产生桶和Reduce任务个数据相同。2.桶表可以对数据进行哈希取模,目的是让数据能够均匀的分布在表的各个文件中。

2023-07-03 11:39:25 484

原创 动态线程池管理

参考

2023-06-26 09:24:12 51

原创 Atlas

Apache 开源 元数据产品支持从 HBase 、Hive、Sqoop、Storm、Kafka 中提取和管理元数据。运行原理Atlas 的原理其实并不难理解,主要是通过内部提供的脚本读取数仓中的数据库结构,生成数据模型,存储到 Atlas的 Hbase 中,同时通过 hook 的方式监听数仓中的数据变化,分析执行的 sql 语句,从而生成表与表,列与列的血缘关系依赖,在前台展示给用户查看。

2023-06-21 18:15:10 42

原创 DolphinScheduler

去中心化设计 通过zk选举。

2023-06-19 18:25:14 521

原创 Flink

1.批处理2.批核流混合处理(批处理是离线等待总数据后处理,流处理为不间断流式处理)3.纯流处理(默认开启cpu核心数的线程)

2023-06-16 17:30:16 55

原创 Spark

高效性 基于内存 Spark 比 MapReduce 快100倍易用性 函数式编程 代码体积小通用性 用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX兼容性 Spark可以读取多种数据源,如HDFS、HBase、MySQL基本概念。

2023-06-15 19:36:45 646

原创 分布式系统的补偿回滚设计

参考

2023-06-15 12:48:07 43

原创 hadoop、hive、hbase的关系

hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。hive适用于离线数据的分析,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的java代码来的更加方便,它的定位是数据仓库,存储和分析历史数据。hbase适用于实时计算,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS。

2023-06-03 13:53:43 314

原创 mq保证消息顺序

https://mp.weixin.qq.com/s/XotYb00zXI7AsKe_ysDZUw

2023-06-02 11:58:44 40

原创 接口优化技巧

参考

2023-06-01 09:52:10 44

原创 工作流引擎

默认集成了Springboot Security。

2023-05-31 10:43:22 38

原创 开源优秀项目

基于 Vue3、Vite3、TypeScript、NaiveUI、Pinia 和 UnoCSS。

2023-05-30 14:44:35 31

原创 低代码平台

aims https://aisuda.bce.baidu.com/amis/zh-CN/docs/start/getting-started

2023-05-28 00:43:29 337

原创 微服务之间数据同步问题

https://mp.weixin.qq.com/s/Ssf1QbPIy4b2HkplwqJq8Q

2023-05-27 12:39:56 174

原创 可视化规则引擎

教程:https://www.bstek.com/resources/doc/3.x/2an-zhuang-yu-pei-zhi.html。源码:https://gitee.com/mirrors/URule。

2023-05-26 15:04:15 532

原创 风险控制系统

参考 https://gitee.com/freshday/radar。

2023-05-25 17:24:14 34

原创 DAAS数据服务-低代码平台

参考。

2023-05-25 16:20:36 122

原创 spring i18n

springboot i8n 作用可以根据请求适配响应不同的语言参考文章

2022-03-18 15:51:36 346

原创 UML工具

UML工具graphvizplantumldraw.io desktopyEd

2022-02-15 18:05:42 6228

原创 UDP/TCP HTTP/HTTPS

7层网络协议TCP有连接数据正确性UDPping命令无连接程序简单不安全 丢包无序 效率高HTTP pipelining默认情况下http协议中每个传输层连接只能承载一个http请求和响应,然后结束HTTP管线化是将多个HTTP要求(request)整批提交的技术而在传送过程中不需先等待服务端的回应仅HTTP/1.1支持此技术(HTTP/1.0不支持)只有GET和HEAD请求可以进行管线化,而POST则有所限制浏览器默认不启动管线机制,因为对方(服务器)不一定支

2022-01-25 22:23:03 1742

原创 kafka 难点

参考文章[[Kafka常见面试题](https://blog.csdn.net/qq_28900249/article/details/90346599)[参考文章](https://www.cnblogs.com/juniorMa/articles/13936154.html)重要考点kafka 为什么那么快Cache Filesystem Cache PageCache缓存顺序写 由于现代的操作系统提供了预读和写技术,磁盘的顺序写大多数情况下比随机写内存还要快。Zero-c

2021-11-04 23:57:06 1233

原创 mq顺序消费

mq顺序消费解决方案单queue单consumer模式消息消费顺序状态(时间戳) 落库 消费逻辑ackrocketmq支持分区顺序消费

2021-10-10 13:10:46 244

原创 MySql事务

MySql事务参考文章MVCC可重复读没有彻底解决幻读高并发场景下快照读 是基于MVCC当前读是最新记录 会产生幻读 需要开启gap和next-lock 来部分解决MVCC(Multi-Version Concurrency Control多版本并发控制):隐藏字段DATA_TRX_ID 字段记录了数据的创建和删除时间,这个时间指的是对数据进行操作的事务的idDATA_ROLL_PTR 指向当前数据的undo log记录,回滚数据就是通过这个指针DELETE

2021-10-10 13:05:30 67

原创 TestableMock的使用

TestableMock参考文章官网使用文档源码

2021-09-23 18:30:10 380

原创 log4j2的使用

log4j2配置分析Appender定义Appenders are responsible for delivering LogEvents to their destination种类FailoverAppender将尝试向队列中的Appender依次输出LogEvent,直到有一个成功为止作用 失败后的保全策略(例如kafka没有生产成功后落入文件)FlumeAppendertype="Avro"方式写入flume 相当于log4j充当flume的sourceAsynchApp

2021-09-23 18:28:19 273

mac 本机安装单机版k8s

mac 本机安装单机版k8s

2023-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除