数据湖
文章平均质量分 78
wang972779876
这个作者很懒,什么都没留下…
展开
-
kafka connect +debezium实时采集postgresql
使用pgoutput的方式设置postgresql修改postgresql.conf添加或者修改以下字段wal_level = logical max_wal_senders = 1 max_replication_slots = 1 修改pg_hba.conflocal replication <youruser> trust host...原创 2021-09-06 16:28:23 · 763 阅读 · 0 评论 -
debezium+kafka connector 实时采集mysql
配置mysql创建用户并授权创建用户CREATE USER 'debezium'@'%' IDENTIFIED BY 'password';授予权限GRANT SELECT, RELOAD, SHOW DATABASES, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'debezium' IDENTIFIED BY 'password';FLUSH PRIVILEGES;启用二进制日志1.检查是否支持二进制日志SELEC原创 2021-08-30 18:31:11 · 739 阅读 · 0 评论 -
flink-cdc
1.什么是CDC变化数据捕获,简称CDC。CDC是建立实时数仓的关键技术2.CDC的种类CDC总的可以分成两类,侵入式的和 非侵入式的,侵入式的会对源系统产生性能影响,概括可以分成以下几类,基于时间戳的CDC、基于触发器的CDC、基于快照的CDC。非侵入式的CDC一般是基于日志的,比如比较常见的canal的CDC 通过获取binlog获取变化数据。下表是几种CDC类型的特点(参考https://blog.csdn.net/wzy0623/article/details/53896343)原创 2021-07-29 10:14:24 · 4791 阅读 · 0 评论 -
hudi学习一(初识hudi)
什么是hudiHudi(发音为“hoodie”)摄取与管理处于DFS(HDFS或云存储)之上的大型分析数据集并为查询访问提供三个逻辑视图。读优化视图 - 在纯列式存储上提供出色的查询性能,非常像parquet表。 增量视图 - 在数据集之上提供一个变更流并提供给下游的作业或ETL任务。 准实时的表 - 使用基于列存储和行存储(例如 Parquet +Avro)以提供对实时数据的查询通过仔细地管理数据在存储中的布局和如何将数据暴露给查询,Hudi支持丰富的数据生态系统,在该系统中,外部数据源..原创 2021-06-21 20:02:53 · 7900 阅读 · 0 评论