数仓
文章平均质量分 76
HumorChen99
learn more and more,持续更新文章,快关注我。
展开
-
MySQL tinyint(1)类型数据在经过flink cdc同步到doris后只有0/1问题定位与解决
随着深入核实SQL、查询条件、表数据发现,同步后的数据表里的一个status字段全是0和1,而源表中有0 1 2 3 4等多个数值,起初以为是status为内置关键词或者内置列问题,去doris官方文档里没有查到这个,随即看了下这个字段的定义,是tinyint(1),于是我查看了名字为非关键词的同类型列,也出现了这个问题,同步后全是0和1,因此可以确认,tinyint(1)这个类型的字段从mysql使用flink cdc同步到doris会有问题。同步后的表里这个字段的值只有0和1了。mysql 数据类型。原创 2024-09-23 15:26:22 · 775 阅读 · 0 评论 -
MySQL使用flinkcdc同步数据到doris一段时间后报错The connector is trying to read binlog starting at Struct
可在云厂商或者自己配置binlog的有效期为7天解决,例如华为云会归档binlog到obs对象存储里去,然后删除了机器里的Binlog文件,导致flink cdc这边报错。因为flink cdc监听了你配置的mysql库的binlog,在进行监听获取数据时发现你这个binlog已经没了,因此报错,然后一直重启同步任务,一直失败。解决后再次启动该同步任务,并对比两边数据量、最新几条数据,手动新增修改删除一些数据看是否正常同步过去了。我们的flink cdc任务放那跑着跑着自己报错挂了,查看报错信息如下。原创 2024-09-24 17:54:46 · 462 阅读 · 0 评论 -
Doris使用mysql语法查询时只保留group by分组并order by排序出来的每个分组第一条记录的方法
查询结果可以看到,mysql自动帮我们每个分组只保留分组中第一条数据,而排序是等分组、where筛选完了才排序的,并不会对分组排序再取第一条。假设有个登录记录表叫 test.t_login_log,同步到doris后表名叫 ods_test_login_log。因为前面根据user_id分过组了,每个组内只有一条记录行号为1。那在MySQL中你需要先按你要排序的字段排序完,再去分组就能得到你想要的了。在标记录行序号的时候可以选择根据字段分区,根据字段排序。手动建了个模拟表并写入数据。原创 2024-09-12 15:17:55 · 326 阅读 · 0 评论 -
Flink CDC MySQL数据同步到Doris表同步配置生成工具类
【代码】Flink CDC MySQL数据同步到Doris表同步配置生成工具类。原创 2024-08-30 13:51:06 · 556 阅读 · 0 评论 -
新版报表系统(明细报表、看板、数据大屏)方案&介绍
现有报表系统采用直连业务数据库多表关联查询方式实现,速度慢,性能差,非常多报表打开慢或者白屏,需要数十秒,导出数据时经常失败,等待时间长,无法导出数据,在多人同时导出时甚至整个报表系统崩溃。点击导出excel后可在下载中心查看到该任务正在导出,导出完成后会弹窗提示导出完成,前往下载中心点击下载报表数据Excel文件。新版报表系统采用数仓方案搭建并开发实现,性能好,报表秒开,导出稳定快速,界面美观,筛选数据方便。新版报表系统支持开发数据大屏,在双十一、618等重要活动可直接制作大屏查看活动数据。原创 2024-09-05 10:37:47 · 420 阅读 · 0 评论 -
数据仓库技术选型方案文档
Flink CDC 是 Flink 的子项目,是 Flink 的一组原连接器,用于 CDC 从不同数据库接收/更改数据,Flink CDC 将 Debezium 集成为引擎,异步或数据更改,因此 Flink CDC 可以充分使用和发挥 Debezium 的能力,并且可以无缝对接 Flink 使用其 SQL API 和 DataStream API 的能力,最终写入各种数据源。它基本能够满足各种数据分析类的场景,并且随着数据体量的增大,它与Spark、Impala、Kylin对比,优势也会变得越为明显。原创 2024-09-03 18:20:32 · 3143 阅读 · 0 评论