数仓
文章平均质量分 71
꧁꫞ND꫞꧂
每一天都值得期待与认证对待
展开
-
type:ETL_QUALITY_UNSATISFIED; msg:quality not good enough to cancel
1.Doris倒入数据异常,如果在日志里看不出来,需要查看具体的情况。2.可以通过执行相应的sql去查看对应的报错信息,在客户端会提示我们查看异常详情的地址。3.通过访问详情会提示我们数据出错的原因。大致可以分为以下几种:1.数据字段类型不匹配;2.字段类型长度不够,需要增加一下;3.Doris需要提前创建表,可能是表没有创建;4.数据相应的分区字段为null,无法确认是保存到哪个分区;...原创 2022-02-23 10:16:11 · 3567 阅读 · 0 评论 -
数据湖使用分享
1 引入背景:目前我们实时接入binlog,用的是kudu,但kudu对大事务支持不好,关键成本比较高,大数据加胜同学建议尝试数据湖,从而开始了数据湖的探索。后续与培殿同学一直配合跟进数据湖,发掘出数据湖更多功能,用于生产。2 数据湖基本概念本质来讲,数据湖是一个关于存储的设计模式2.1 数据湖基础概念snapshotsnapshot是iceberg比较重要的概念。Iceberg 基于MVCC(Multi-Version Concurrency Control)设计,每次commit..原创 2021-09-14 15:12:30 · 715 阅读 · 0 评论 -
什么是数据湖
什么是数据湖?数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。关于数据湖的定义确实是一个业界有较多争议的地方。狭义的数据湖指的是数据湖存储,即可以存放海量数据(各种格式)的地方,包括 Hadoop 的文件系统 HDFS 或者云上的对象存储系统 S3 都属于这个范畴。广义的数据湖除了数据湖存储,还包括数据湖的管理和分析,即提供一整原创 2021-09-14 15:01:39 · 3857 阅读 · 0 评论 -
数仓建设及数据治理
数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。转载 2021-08-31 13:24:15 · 656 阅读 · 0 评论 -
OceanBase使用的Paxos协议和Raft的理解
前段时间相信都被阿里的OceanBase数据库刷屏了,它击败世界头号数据库厂商Oracle,登顶全球第一。先不看新闻内容,光是看标题就足以让人耳目一新了。又是“击败”,又是“第一”,又是“打破世界纪录”。即使是IT行业的门外汉,相信也会对这个消息感到振奋。但是你知道其底层其实使用的Paxos协议吗?如果你不知道也没关系,这篇文章主要就是让你理解Paxos协议到底是个什么东西?一、从分布式理论说起我们知道分布式架构中有一个基础的CAP理论,也就是我们的系统最多只能满足数据一致性(Consistency转载 2021-06-09 10:47:39 · 887 阅读 · 1 评论 -
Druid的SQL查询时间处理
druid的SQL查询中时间的格式化格式化为天__time为druid中存储时间的字段TIME_FORMAT(__time,'Y-MM-dd')格式化为周其实为格式化为周的第一天TIME_FORMAT(DATE_TRUNC('week',__time),'Y-MM-dd')格式化为月其实为格式化为月的第一天TIME_FORMAT(DATE_TRUNC('month',__time),'Y-MM-dd')格式化为小时TIME_FORMAT(__time.原创 2021-05-27 15:53:19 · 2712 阅读 · 0 评论 -
数仓由来
从架构师角度仅讨论中大型企业的数仓架构建设。本文主要以一问一答式来展开讨论。1、为什么要建数仓?这就要从数仓能解决的问题或者痛点来说,大型公司的业务相对复杂,随着公司业务的扩大,跨BU,跨BG的业务往来越来越多,而数据一般分散在各个部门,这样需要统一的平台来存储这样的跨系统的数据。此外,近年来分库分表等应用越来越多,仅通过传统关系型数据库做数据分析和挖掘已经不能满足要求。当然随着手机APP的大量使用,埋点等数据一般都以log日志方式存在,需要一个新的介质后者方案来解析这些数据,为了解决这个问题,数仓转载 2021-03-16 20:19:18 · 479 阅读 · 0 评论