大数据
文章平均质量分 68
pmdream
每天进步一点点,如果没有学习那就是倒退
展开
-
[mysql]我们业务中replace into会有什么问题?
前言其实业务应该尽量少的使用replace into;问题如果是有id 且有唯一索引的话,按照联合索引做replace into,主键在数据库里面是先delete 然后再insert但是binlog的话,相当于是 id before 8 after 9 相当于只是改了主键的值,因为按照联合索引来去replace into,主键是递增的情况。这样到了binlog 友富那边取出来的就是 update set id = 9 where id =8那这样肯定是不对的,所以再抽取.原创 2021-09-01 01:46:25 · 991 阅读 · 0 评论 -
[HDFS]hdfs租约--我们flink写hdfs做checkpoint时候失败导致文件缺失
文件实际是写完的,因为checkpoint做失败了,导致文件没有被hdfs计算在内。我们用flink 写入到hdfs,报错信息会提示replicas副本数量不足。hdfs元信息里面记录的文件大小和实际落地的文件大小不一致。导致hive的任务只获取到一部分数据。这种情况很偶发,认为是hdfs集群负载过高导致。解决:加上flink任务状态和错误日志的监控,出现问题告警。但是实际上是因为checkpoint 失败,导致hdfs租约失败。比如一个20k的文件,写到5k的时候,元数原创 2021-07-29 00:15:18 · 1221 阅读 · 0 评论 -
[Mysql]tinyint(1)和tinyint(2)的区别?JDBC中tinyint(1)会自动转为true/false
前言:因为做数据质量,校验mysql到hive的同步的数据质量。是否字段一致发现的问题。mysql中tinyint(1)会自动取出object 会算作true 或者false。原创 2021-04-26 17:46:20 · 2893 阅读 · 0 评论 -
[数据仓库]分层概念,ODS,DM,DWD,DWS,DIM的概念
ODS是什么?ODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是 300 岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一 ID 却有两条重复转载 2021-02-03 14:21:22 · 107125 阅读 · 13 评论