实时数据
文章平均质量分 95
Jarvis数据之路
这个作者很懒,什么都没留下…
展开
-
Canal教程
Canal介绍简介基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger(触发器) 获取增量变更从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务,基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache 刷新带业务逻辑的增量数据处理当前的原创 2021-04-02 12:19:17 · 605 阅读 · 0 评论 -
flink学习及案例实战
文章目录集群模型和角色资源和资源组分布式缓存故障恢复和重启策略故障恢复fullregion重启策略Exactly-once过程窗口和时间窗口时间反压问题反压指标反压处理数据倾斜GC代码本身数据倾斜原因两阶段聚合解决 KeyBy 热点解决方案GroupBy + Aggregation 分组聚合热点问题解决方案Flink 消费 Kafka 上下游并行度不一致导致的数据倾斜解决方案Flink 维表关联实时查询维表预加载全量数据LRU 缓存Flink 去重基于状态后端基于 HyperLogLog基于布隆过滤器()基原创 2020-10-21 11:22:58 · 995 阅读 · 1 评论 -
Flink代码及ui界面应用
文章目录Flink和Spark各自优劣底层机制SparkFlink运用支持语言Flink运行代码maven配置source部分&transform模块sink模块执行1、命令行执行2、Flink web ui配置job执行日志task manager日志Flink和Spark各自优劣底层机制SparkSpark的数据模型是弹性分布式数据集 RDD,这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的Spark Streaming是通过将数据流转成批(micro-batches)原创 2020-09-25 12:32:26 · 3089 阅读 · 0 评论