- 博客(5)
- 收藏
- 关注
原创 布隆过滤器
问题的引入:如果我们想去判断一个元素某个集合里面,会怎么做呢?一般的方案->先把所有的元素保存起来,然后通过循环的方式来比较确定。但是如果有几千万,甚至上亿的数据的时候,虽然可以通过不同的数据结构来优化,数据检索的时间复杂度,但是整体的效率依然很慢,而且会占用特别多的内存空间。正确的方案->。基本原理:用一个bit位来存储当前数据是否存在一个状态值,也就是把一个数据通过hash运算取模后,落在bit数组的某个位置中,通过1进行标记。
2023-11-21 08:30:00 45
原创 DataX理论
主要用于采集处理业务数据。是阿里云的DataWorks数据集成的开源版本,在阿里巴巴集团内广泛使用的离线数据同步工具。解决了数据库之间相互传递数据的问题把网状模型改成了星型模型。当需要插入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。优势:可靠的数据质量监控、丰富的数据转换功能、精准的速度控制、强劲的同步性能、强壮的容错机制、极简的使用体验。
2023-11-20 08:30:00 42 1
原创 DolphinSchedule理论
Apache DolphinScheduler是一个分布式易拓展的可视化DAG工作流任务调度开源系统。解决数据研发ETL错综复杂的依赖关系,不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。
2023-11-18 21:45:00 128 1
原创 Flume理论
分布式的海量日志采集,聚合和传输的系统。优点:可以高速采集数据,采集的数据能够以想要的文件格式及压缩方式存储在HDFS上。事务功能保证了数据在采集的过程中数据不丢失,部分Source保证了Flume挂了以后重启依旧能够继续在上一次采集点采集数据,正真做到数据零丢失。核心组件:- Client->生产数据,运行在一个独立的线程- Event->一个数据单元,消息头和信息体组成(Event可以是日志记录、avro对象等)- Flow->Event从源点到达目的点的迁移的抽象- Agent->一个独立
2023-11-18 17:24:00 47 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人