烤鸭肠-CSDN博客

原创布隆过滤器

问题的引入：如果我们想去判断一个元素某个集合里面，会怎么做呢？一般的方案->先把所有的元素保存起来，然后通过循环的方式来比较确定。但是如果有几千万，甚至上亿的数据的时候，虽然可以通过不同的数据结构来优化，数据检索的时间复杂度，但是整体的效率依然很慢，而且会占用特别多的内存空间。正确的方案->。基本原理：用一个bit位来存储当前数据是否存在一个状态值，也就是把一个数据通过hash运算取模后，落在bit数组的某个位置中，通过1进行标记。

2023-11-21 08:30:00 45

原创 DataX理论

主要用于采集处理业务数据。是阿里云的DataWorks数据集成的开源版本，在阿里巴巴集团内广泛使用的离线数据同步工具。解决了数据库之间相互传递数据的问题把网状模型改成了星型模型。当需要插入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。优势：可靠的数据质量监控、丰富的数据转换功能、精准的速度控制、强劲的同步性能、强壮的容错机制、极简的使用体验。

2023-11-20 08:30:00 42 1

原创 DolphinSchedule理论

Apache DolphinScheduler是一个分布式易拓展的可视化DAG工作流任务调度开源系统。解决数据研发ETL错综复杂的依赖关系，不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式的方式将Task组装起来，可实时监控任务的运行状态，同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。

2023-11-18 21:45:00 128 1

原创 Flume理论

分布式的海量日志采集，聚合和传输的系统。优点：可以高速采集数据，采集的数据能够以想要的文件格式及压缩方式存储在HDFS上。事务功能保证了数据在采集的过程中数据不丢失，部分Source保证了Flume挂了以后重启依旧能够继续在上一次采集点采集数据，正真做到数据零丢失。核心组件：- Client->生产数据，运行在一个独立的线程- Event->一个数据单元，消息头和信息体组成（Event可以是日志记录、avro对象等）- Flow->Event从源点到达目的点的迁移的抽象- Agent->一个独立

2023-11-18 17:24:00 47 1

原创数据仓库理论

概念：数仓（Data Warehouse）是一种思想，数仓是一种规范，数仓是一种解决方案。

2023-11-18 16:42:48 353 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 布隆过滤器

原创 DataX理论

原创 DolphinSchedule理论

原创 Flume理论

原创 数据仓库理论

空空如也

空空如也

原创布隆过滤器

原创数据仓库理论