bigdata
mengml_smile
我就是我 不一样的自我
展开
-
埋点平台一分钟
数据采集实战:商品详情页数据埋点原创 2023-12-04 17:43:01 · 60 阅读 · 0 评论 -
CDC(Change Data Capture)一分钟
推荐一款比Flink CDC更好用的免费CDC工具原创 2023-11-27 19:19:59 · 70 阅读 · 0 评论 -
实时标签引擎一分钟
数据中台实战:以圆猿买手为案例谈如何从0到1搭建实时标签引擎原创 2023-11-27 19:18:49 · 165 阅读 · 0 评论 -
推荐系统一分钟
基于标签的推荐系统必须要解决的4个核心问题原创 2023-11-27 17:54:30 · 31 阅读 · 0 评论 -
指标管理系统
参考原创 2023-11-20 15:00:36 · 132 阅读 · 0 评论 -
数据之路一分钟
网易数帆数据治理演进网易-有数学堂原创 2023-08-21 17:40:22 · 45 阅读 · 0 评论 -
数据仓库一分钟
直接点讲,就是大部分(80%以上)的需求,都用DWS的表来支持就行,DWS支持不了的,就用DWM和DWD的表来支持,这些都支持不了的极少一部分数据需要从原始日志中捞取。在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。“面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。原创 2023-08-21 11:39:20 · 1053 阅读 · 0 评论 -
Trino一分钟
Trino主要是由Client、Coordinator、Worker以及Connector来构成。原创 2023-08-18 18:10:39 · 84 阅读 · 0 评论 -
元数据系统
数据血缘落地实践原创 2023-07-07 14:44:15 · 14 阅读 · 0 评论 -
Doris一分钟
官网原创 2023-07-04 19:08:19 · 127 阅读 · 0 评论 -
实时数仓Flink+Iceberg
参考原创 2023-07-03 16:00:46 · 76 阅读 · 0 评论 -
Atlas
Apache 开源 元数据产品支持从 HBase 、Hive、Sqoop、Storm、Kafka 中提取和管理元数据。运行原理Atlas 的原理其实并不难理解,主要是通过内部提供的脚本读取数仓中的数据库结构,生成数据模型,存储到 Atlas的 Hbase 中,同时通过 hook 的方式监听数仓中的数据变化,分析执行的 sql 语句,从而生成表与表,列与列的血缘关系依赖,在前台展示给用户查看。原创 2023-06-21 18:15:10 · 42 阅读 · 0 评论 -
DolphinScheduler
去中心化设计 通过zk选举。原创 2023-06-19 18:25:14 · 521 阅读 · 0 评论 -
Flink
1.批处理2.批核流混合处理(批处理是离线等待总数据后处理,流处理为不间断流式处理)3.纯流处理(默认开启cpu核心数的线程)原创 2023-06-16 17:30:16 · 55 阅读 · 0 评论 -
Spark
高效性 基于内存 Spark 比 MapReduce 快100倍易用性 函数式编程 代码体积小通用性 用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX兼容性 Spark可以读取多种数据源,如HDFS、HBase、MySQL基本概念。原创 2023-06-15 19:36:45 · 646 阅读 · 0 评论 -
hadoop、hive、hbase的关系
hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。hive适用于离线数据的分析,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的java代码来的更加方便,它的定位是数据仓库,存储和分析历史数据。hbase适用于实时计算,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS。原创 2023-06-03 13:53:43 · 313 阅读 · 0 评论