自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 布隆过滤器

问题的引入:如果我们想去判断一个元素某个集合里面,会怎么做呢?一般的方案->先把所有的元素保存起来,然后通过循环的方式来比较确定。但是如果有几千万,甚至上亿的数据的时候,虽然可以通过不同的数据结构来优化,数据检索的时间复杂度,但是整体的效率依然很慢,而且会占用特别多的内存空间。正确的方案->。基本原理:用一个bit位来存储当前数据是否存在一个状态值,也就是把一个数据通过hash运算取模后,落在bit数组的某个位置中,通过1进行标记。

2023-11-21 08:30:00 45

原创 DataX理论

主要用于采集处理业务数据。是阿里云的DataWorks数据集成的开源版本,在阿里巴巴集团内广泛使用的离线数据同步工具。解决了数据库之间相互传递数据的问题把网状模型改成了星型模型。当需要插入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。优势:可靠的数据质量监控、丰富的数据转换功能、精准的速度控制、强劲的同步性能、强壮的容错机制、极简的使用体验。

2023-11-20 08:30:00 42 1

原创 DolphinSchedule理论

Apache DolphinScheduler是一个分布式易拓展的可视化DAG工作流任务调度开源系统。解决数据研发ETL错综复杂的依赖关系,不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。

2023-11-18 21:45:00 128 1

原创 Flume理论

分布式的海量日志采集,聚合和传输的系统。优点:可以高速采集数据,采集的数据能够以想要的文件格式及压缩方式存储在HDFS上。事务功能保证了数据在采集的过程中数据不丢失,部分Source保证了Flume挂了以后重启依旧能够继续在上一次采集点采集数据,正真做到数据零丢失。核心组件:- Client->生产数据,运行在一个独立的线程- Event->一个数据单元,消息头和信息体组成(Event可以是日志记录、avro对象等)- Flow->Event从源点到达目的点的迁移的抽象- Agent->一个独立

2023-11-18 17:24:00 47 1

原创 数据仓库理论

概念:数仓(Data Warehouse)是一种思想,数仓是一种规范,数仓是一种解决方案。

2023-11-18 16:42:48 353 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除