九层之台起于累土
九层之台,起于累土;千里之行,始于足下!
展开
-
HDFS 上的 root 临时目录:/tmp/hive 应该是可写的.当前权限为:rwx---------(在 Linux 上)
本文介绍了HDFS 上的 root 临时目录:/tmp/hive 应该是可写的.当前权限为:rwx---------(在 Linux 上)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!原创 2022-10-05 13:03:00 · 751 阅读 · 0 评论 -
【数仓】数仓建模—ID Mapping
ID Mapping 就如同它的名字一样,我们要做的就是将一系列的ID 关联起来,一些列的ID 可能是用户在不同平台上的标识,也可能是用户在不同设备上的标识,也可能是用户在不同状态下的标识,总之我们就是要将这一系列的ID 关联起来,尽可能地将用户的数据打通,从而提供更加全面准确的分析。...转载 2022-08-07 11:24:29 · 716 阅读 · 0 评论 -
【数仓】数仓建模—埋点设计与管理
其实所有的事件都是自定义事件,但是我们为什么还是要区分自定义事件呢?这是因为我们在一开始定义可很多通用的事件,所以我们的自定义事件是相对我们的通用事件而言的,但是我们怎么去定义一个自定义事件吗,其实还要考虑到通用的属性,因为这样我们可以复用通用事件的一些属性的定义,而不是完全重新设计一套东西。...转载 2022-08-07 11:23:01 · 503 阅读 · 0 评论 -
【数仓】数仓建模—数据集成
这里有一个词是主题,那就是我们集成后的数据,又按照了主题进行了划分,而面向主题划分出来的部分就是数据集市,也就是说数据集市是数据仓库的一个子集或者说是集成后的子集。转载 2022-08-07 11:21:10 · 334 阅读 · 0 评论 -
【数仓】数据仓库—数据集成
数据集成是数仓的特性,所以数仓需要具备数据集成的能力;数据集成它不等价于数据同步平台,数据同步只是数据集成的第一步;数据集成的目的是为了打通数据孤岛,从而更好的支持企业的数据决策,数仓打破数据孤岛的方式是将各个业务系统数据集中到一个统一的、集中的 数据仓库,而达到这个目的方式就是数据集成。...转载 2022-08-07 11:19:53 · 810 阅读 · 0 评论 -
【数仓】数据仓库之拉链表
拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。下面就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。表示该条记录的生命周期开始时间,t_end_date表示该条记录的生命周期结束时间;t_end_date= ‘9999-12-31’ 表示该条记录目前处于有效状态;如果查询当前所有有效的记录,则如果查询2017-01-01的历史快照,则。...原创 2022-08-07 11:18:09 · 175 阅读 · 1 评论 -
【数仓】数仓建模—指标体系
建设指标体系,需要回答以下几个问题为什么建设数据指标体系如何评价数据指标体系,一个好的数据指标体系是要需要回答两个问题,它是不是有助于业务发展,以及说这个指标体系拆解是不是可具备、可落地、可实操的可能性。如何建设数据指标体系,这就需要我们的建设方法论了如何维护和管理指标,指标的维护和管理是有套路的,最简单的指标管理方法——指标字典,我们在此基础上可以做指标管理系统OSM 实现了业务目标结构化,UJM 实现了业务目标流程化。数据指标体系其实只是数据赋能业务的万里长征的第一步。...转载 2022-08-07 11:15:52 · 2770 阅读 · 1 评论 -
【数仓】数仓建模分层理论
然后加工成面向数仓的基础明细表,这个时候可以加工一些面向分析的大宽表。DWD层应该是覆盖所有系统的、完整的、干净的、具有一致性的数据层。在DWD层会根据维度模型,设计事实表和维度表,也就是说DWD层是一个非常规范的、高质量的、可信的数据明细层。...转载 2022-08-07 11:13:59 · 464 阅读 · 0 评论 -
【数仓】数仓建模方法论
上述的这些方法都有自己的优点和局限性,在创建自己的数据仓库模型的时候,可以参考使用上述的三种数据仓库得建模方法,在各个不同阶段采用不同的方法,从而能够保证整个数据仓库建模的质量。方法论仅仅停留在理论层面上,落地实现的才真正决定了数仓设计的好坏,当然再好的方法,只有在合适的阶段使用,才有意义,才能发挥它最大的价值。...转载 2022-08-07 11:11:48 · 286 阅读 · 0 评论 -
【数仓】数仓架构发展史
在真实的场景中,很多时候并不是完全规范的Lambda架构或Kappa架构,可以是两者的混合,比如大部分实时指标使用Kappa架构完成计算,少量关键指标(比如金额相关)使用Lambda架构用批处理重新计算,增加一次校对过程。这两个架构都是实时架构,都是对离线架构的扩展。...转载 2022-08-07 11:09:52 · 571 阅读 · 0 评论 -
【数仓】最强最全面的数仓建设规范指南
本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!原创 2022-08-07 11:05:03 · 437 阅读 · 0 评论 -
【Canal】大数据迁移分析——Canal尝试
目的转变为: 解析MySql Binary Log 》读取更改数据》插入到其他数据库。ooop,binary Log的格式解析,一听就不是个简单的工程啊,这,是要死的节奏吗?打开万能的github,翻翻有没有.net /.net core的项目? 老天啊,都是java的,不管了,黑猫白猫逮住老鼠都是好猫!接下来闪亮登场的就是阿里的亲儿子~~~canal [kə’næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费,早期阿里巴巴因为杭州和美国双机房部署,原创 2022-08-06 10:52:32 · 238 阅读 · 0 评论 -
【Alluxio】6W+ 字记录实验全过程 | 探索 Alluxio 经济化数据存储策略
随着大数据应用的不断发展,数据仓库、数据湖的大数据实践层出不穷;无论是电信、金融、政府,各个行业的大数据热潮蓬勃发展。在过去的4-5年中,我们不断看到企业用户大数据膨胀问题日益加剧,大数据创新下数据存储成本呈现线性增长,使得企业对于大数据的应用开始变得谨慎、变向放缓了企业内部数据化转型的速度。大数据存储引擎从2006年发布以来,百花齐放,计算侧MapReduce、Spark、Hive、Impala、Presto、Storm、Flink的问世不断突破应用领域,不过在大数据存储方面反而显得慎重与沉稳。...转载 2022-08-05 10:05:05 · 183 阅读 · 0 评论 -
你认为NewSQL和HTAP有什么区别?
通过控制向量的大小,保证预取的一批数据可以装载到 CPU 的 level 2 cache 中,从而最大程度的避免数据比较时的 cache miss 和 memory stalling,进而提升 CPU 的利用率。通过二分的比较方式,可以在重复数据较多的场景下跳过重复数据的比较,实现计算的加速。另外算子在向量化引擎下,都可以进行大量的算法优化,OceanBase 在这些方向都会持续提升,未来会引入更多的新算法实现和技术方案到向量化引擎中,更好的服务用户在 HTAP 场景下 TP、AP 混合负载查询。...转载 2022-08-05 09:58:37 · 142 阅读 · 0 评论 -
【PostgreSQL】为什么PostgreSQL是最成功的数据库?
当我们说一个数据库""时,到底在说什么?是指功能性能易用性,还是成本生态复杂度?评价指标有很多,但这件事最终还得由来定夺。数据库的用户是开发者,而开发者的意愿、喜好、选择又怎么说?StackOverflow 连续六年向来自180个国家的七万多开发者问了这三个问题。纵览这六年数据,不难看出在2022年,已经同时在这三项上登顶夺冠,成了字面意义上 “”PG 成为 专业开发者的数据库!)PG 成为 开发者的数据库!()PG 成为开发者的数据库!()...转载 2022-08-05 09:56:19 · 280 阅读 · 0 评论 -
【ETL】常见的ETL工具(含开源及付费)一览和优劣势分析?
支持的数据输入输出的类型:Mysql、Oracle、MSSQL Server、PostgreSQL、DB2、Kafka、Greenplum、Redis、TiDB、SequeoiaDB、Amazon Redshift、HashData、HDFS、FTP、Hive、Inceptor等。(6)Amazon Glue Jobs system提供用于为您的数据定义、安排和运行 ETL 操作的托管基础设施,您可以在 Amazon Glue 中创建作业,用于自动处理您用于提取、转换数据并将数据传输到不同位置的脚本。...原创 2022-08-05 09:53:34 · 4742 阅读 · 0 评论 -
【HuDi】B站增量数据湖探索与实践
1. 背景众所周知,越实时的数据越有价值。直播、推荐、审核等领域中有越来越多的场景需要近实时的数据来进行数据分析。我们在探索和实践增量数据湖的过程中遇到许多痛点,如时效性、数据集成同步和批流一体的存储介质不统一的问题。本文将介绍我们针对这些痛点所进行的思考与实践方案。1.1 时效性痛点传统数仓以小时/天级分区,数据完整才可查。然而,一些用户并不需要数据完整,只需要最近的数据做一些趋势分析。因此,现状无法满足用户越来越强的数据时效性需求。传统数仓ETL上一个任务完成后,才能开始下一个任务。即使是小时分区,层级转载 2022-08-05 09:40:54 · 1056 阅读 · 0 评论 -
【bigdata】Hive、SparkSQL是如何决定写文件的数量的
由于spark的写文件方式,会导致产生很多小文件,会对NameNode造成压力,读写性能变差,为了解决这种小文件问题,spark新的版本(笔者使用2.4.0.cloudera2版本)中支持了动态规划shuffle过程,需要配置spark.sql.adaptive.enabled属性。从结果可以看到只有一个文件,这是由于动态规划的作用,在写文件的时候只启动了一个任务。与Hive不同的是,Spark在执行shuffle过程的时候,会为每一个shuffle的key启动一个任务来写数据,上例中的key。...原创 2022-08-05 09:27:51 · 132 阅读 · 0 评论 -
【Hudi】Apache Hudi:不一样的存储、不一样的计算
本篇是来自好友孟尧总的一篇文章。我发现,真正的纯粹是自发的,没有任何外部的干扰,因为我们都不是为了钱、为了生活做技术、写作。只有这样,我们才能真正的洒脱。通过文章能够看到孟总对待技术的态度、思维方式。一切,是因为我们都有所期待。一切,是因为我们都有理想。一切,是因为我们敬畏技术。一切,是因为我们不光做共同的技术,更有共同技术文化信仰。虽然相距600公里,技术会让我们重新聚在一起。期待。目录Hudi是什么Hudi的应用场景Hudi的核心概念Hudi支持的存储类型Hudi的SparkSQL使用Hudi的Writ转载 2022-08-01 13:48:10 · 1246 阅读 · 0 评论 -
【Hudi】Apache Hudi如何智能处理小文件问题
本文介绍了ApacheHudi如何智能地管理小文件问题,即在写入时找出小文件并分配指定大小的记录数来规避小文件问题,基于该设计,用户再也不用担心ApacheHudi数据湖中的小文件问题了。httpshttpshttps。...转载 2022-08-01 13:28:11 · 710 阅读 · 0 评论 -
【 Hudi】数据湖框架选型很纠结?一文了解Apache Hudi核心优势
若没有索引功能,Hudi就不可能在超大扩展规模[4]上实现更删操作。希望这篇文章为目前的索引机制提供了足够的背景知识和对不同权衡取舍的解释。以下是一些颇具意义的相关工作•基于ApacheFlink并建立在RocksDB状态存储上的索引机制将带来真正意义上的数据湖流式插入更新。•全新的元数据索引将基于Hudi元数据全面翻新现有的布隆索引机制。•记录层的索引实现,用另一个Hudi表作为二级索引。在接下来的开发中,项目组会对这个领域保持积极的投入。我们始终期待更多贡献者的加入以及推进路线图中的项目。...翻译 2022-08-01 11:06:21 · 321 阅读 · 0 评论 -
【Spark】 Spark数据倾斜
小表的标准10M,可调节,小表声明成广播变量,广播变量分块的缺省值4M,缺省情况下Driver的内存为1G)无效数据,对结果影响不大的有效数据或是大量重复的测试数据【如新注册的视频网站账号,视频网站会随机推送当前的热门影片,类似这些数据】数据倾斜指的是,并行处理海量数据过程中,某个或者某些分区的数据显著多余其他分区,从而使得该部分的处理速度成为整个。对于给定的数据,如果预先对数据特征进行分析,有可能发现产生数据倾斜的key。或在请求不到广告时播放默认广告。......转载 2022-07-20 11:29:01 · 152 阅读 · 0 评论 -
【数仓】数据倾斜识别
我们在写sql的时候经常发现读取数据不多,但是代码运行时间异常长的情况,这通常是发生了数据倾斜现象。数据倾斜现象本质上是因为数据中的key分布不均匀,大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,从而拉慢了整个计算过程速度。本文将介绍如何通过日志分析,判断数据中的哪个key分布不均,从而导致了数据倾斜问题。...转载 2022-07-19 10:32:57 · 462 阅读 · 0 评论 -
【数仓】Hadoop、Hive 和 Spark中数据倾斜的处理
对于分布式系统,大量的数据集中到一台或几台服务器上,称为数据倾斜。数据倾斜现象有两种,一是数据频率倾斜,某一区域的数据量远远大于其他区域;二是数据大小倾斜,部分记录的大小远远大于平均值。开发中的常见情况是出现了热点key(重复的key大量出现)。默认情况下,Map阶段同一个key的数据发给同一个Reduce处理,导致某一个Reduce程序消耗的资源和运行时间远大于其他Reduce程序。...转载 2022-07-19 10:31:45 · 201 阅读 · 0 评论 -
【数据质量】数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis
Griffin是一个开源的大数据数据质量解决方案,由eBay开源,它支持批处理和流模式两种数据质量检测方式,是一个基于Hadoop和Spark建立的数据质量服务平台(DQSP)。Qualitis基于SpringBoot,依赖于Linkis进行数据计算,提供数据质量模型构建,数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。星球的目标是收集数据治理实践工具的相关资料,并定期组织实战学习小组,让数据治理的相关资料可以长久的保存,同时也解决文章被频繁抄袭的问题,欢迎大家加入。...转载 2022-07-19 10:29:48 · 1924 阅读 · 0 评论 -
【数据库】MySQL与Oracle的区别
⑤空字符的处理MYSQL的非空字段也有空的内容,ORACLE里定义了非空字段就不容许有空的内容。oracle使用行级锁,对资源锁定的粒度要小很多,只是锁定sql需要的资源,并且加锁是在数据库中的数据行上,不依赖与索引。服务端提供oracle服务的实例,其是数据库的核心,用于数据库的管理,对象的管理与存储、数据的存储、查询、数据库资源的监控、监听等一些服务。虽然InnoDB引擎的表可以用行级锁,但这个行级锁的机制依赖于表的索引,如果表没有索引,或者sql语句没有使用索引,那么仍然使用表级锁。...转载 2022-07-19 10:25:00 · 170 阅读 · 0 评论 -
【监控】process exporter 监控进程并告警
这并不会得到想要的结果,并且可能会导致prometheus遇到麻烦——metrics基数过高。在prometheus中,process-exporter可以用来检测所选进程的存活状态。一个进程仅可能属于一个组即使匹配多个,也只会归属于第一个匹配的。至此,processexporter监控进程并告警配置完成。标签定义用于命名匹配过程的模板;都提供了用于识别和命名过程的方法。如果选择监控的进程并将其分组,可以提供。重启该进程,收到恢复告警,任选一个监控的进程宕掉,等待1m,收到钉钉告警,......转载 2022-07-19 10:33:36 · 4922 阅读 · 2 评论 -
【监控】prometheus + grafana,dingtalk使用自定义告警模板
default.tmpl中包含的url请按自己的情况设置,dingtalk使用自定义告警模板配置至此完成。,这正是grafana的url。因为alertmanager的。需要注意的是,default.tmpl中包含了。,只针对dingtalk部分进行修改。参数已经被更改为grafana地址。,最终点击告警消息中的链接就能够跳转到。本地添加hosts,访问。模拟CPU使用率为80%,...转载 2022-07-18 10:01:47 · 2740 阅读 · 0 评论 -
【监控】k8s部署prometheus + grafana
Kubernetes可以约定好带哪些annotation前缀的服务是自主暴露监控指标的服务。应用添加约定的这些annotations,Prometheus可以根据annotation实现抓取。Prometheus根据这些annotations可以获知相应service是需要被探测的,探测的网络协议可以是http、tcp或其他,以及具体的探测端口。http探测需要知道探测的具体url。...转载 2022-07-18 09:59:20 · 25414 阅读 · 1 评论 -
【监控】docker stack部署prometheus + grafana
通过stack部署prometheus、node-exporter、alertmanager和grafana。prometheus最新版本2.19.2。原创 2022-07-18 09:53:47 · 65 阅读 · 0 评论 -
【监控】docker-compose 部署prometheus + grafana
通过-compose部署prometheus、node-exporter、alertmanager和grafana。prometheus最新版本2.19.2。原创 2022-07-18 09:51:18 · 140 阅读 · 0 评论 -
【监控】docker 部署prometheus + grafana
部署prometheus、node-exporter、alertmanager和grafana。prometheus最新版本2.19.2。docker部署prometheus+grafana完成,整个部署过程相比传统部署方式要简便很多。选择alertmanager节点(192.168.30.136),关闭。容器部署完成,且规则配置完毕。接下来部署grafana,图形化展示。测试宕机完成,告警没有问题。-exporter容器。收到钉钉和邮件故障告警,收到钉钉和邮件恢复告警,...原创 2022-07-18 09:46:53 · 189 阅读 · 0 评论 -
【监控】Prometheus部署(三)
Prometheus是最初在SoundCloud上构建的开源系统监视和警报工具包。自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有非常活跃的开发人员和用户社区。Prometheus于2016年加入了NativeComputingFoundation,这是继Kubernetes之后的第二个托管项目。官网https//prometheus.io最新版本2.19.2文档https下载prometheus各组件https。...原创 2022-07-18 09:33:50 · 105 阅读 · 0 评论 -
【监控】Prometheus部署(二)
PromQL(PrometheusQueryLanguage)是Prometheus自己开发的数据查询DSL语言,语言表现力非常丰富,内置函数很多,在日常数据可视化以及rules告警中都会使用到它。表达式数据类型即时向量(Instantvector)一组时间序列,每个时间序列包含一个样本,所有样本共享相同的时间戳范围向量(Rangevector)一组时间序列,其中包含每个时间序列随时间变化的一系列数据点标量(Scalar)一个简单的数字浮点值字符串(String)。...原创 2022-07-18 09:29:56 · 254 阅读 · 0 评论 -
【监控】Prometheus部署(一)
prometheus的特点1.多维的数据模型(基于时间序列的Key、Value键值对)2.灵活的查询和聚合语言PromQL3.提供本地存储和分布式存储4.通过基于HTTP的Pull模型采集时间序列数据5.可利用Pushgateway(Prometheus的可选中间件)实现Push模式6.可通过动态服务发现或静态配置发现目标机器7.支持多种图表和数据大盘prometheus的组件prometheus的架构prometheus的使用场景。...原创 2022-07-18 09:25:59 · 156 阅读 · 0 评论 -
【监控】Grafana部署
grafana所有插件https//grafana.com/grafana/plugins?展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。grafana是一款采用go语言编写的开源应用,主要用于大规模指标数据的。,建议多尝试,最好带zabbix的httpd监听端口,我这里是。grafana与zabbix结合时,zabbix的。官网https//grafana.com/来监控是否存活,存活返回1,反之返回0。,建议后面更改密码。,建议后面更改密码。...原创 2022-07-18 09:18:11 · 131 阅读 · 0 评论 -
【Doris】Prometheus+Grafana监控Doris
DorisDB提供两种监控报警的方案,第一种是使用内置的DorisManager,其自带的Agent从各个Host采集监控信息上报到Center Service然后做可视化展示,也提供了邮件和Webhook的方式发送报警通知。但是如果用户为了二次开发需求,需要自己搭建部署监控服务,也可以使用开源的Prometheus+Grafana的方案,DorisDB提供了兼容Prometheus的信息采集接口,可以通过直接链接BE/FE的HTTP端口来获取集群的监控信息。如果采购DorisDB企业版,则提供DorisM转载 2022-07-19 10:33:51 · 3224 阅读 · 1 评论 -
一站式元数据治理平台——Datahub入门宝典
随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。所以整理了这份文档供大家学习使用。本文档基于Datahub最新的0.8.20版本,整理自部分官网内容,各种博客及实践过程。文章较长,建议收藏。新版本的文档请关注公众号 大数据流动,会持续的更新~通过本文档,可以快速的入门D转载 2022-07-14 09:07:56 · 1397 阅读 · 0 评论 -
【DataHub】 现代数据栈的元数据平台--如何与spark集成,自动产生spark作业的数据血缘关系?
DataHub通过如下方式集成spark:如下面的代码(源码参见:TestSparkJobsLineage.java集成spark产生的元数据执行上面的测试用例,将产生如下元数据:执行上面的测试用例,将同时产生数据集间的数据血缘关系,如下:以下管道pipelines和任务tasks中的自定义属性与Spark UI相关:管道pipeline和任务task的其他自定义属性:捕获执行的开始和结束时间、查询计划在任务的queryPlan属性中捕获。下面是当前被解析的Spark api列表:针对提交的spa转载 2022-07-14 09:08:02 · 1547 阅读 · 1 评论 -
【DataHub】 现代数据栈的元数据平台--如何删除元数据?
为了保证DataHub中的元数据的有效性、正确性,需要及时将不正确的、废弃的元数据进行删除。本文主要讲解在DataHub中如何删除元数据?DataHub针对每个实体都关联一个特殊的方面Aspect ,来表示实体的生命周期状态。要使一个实体不能在DataHub UI中查看、搜索,只需要将 Aspect的属性设置为即可。其实这和关系数据库中,通过一个字段标识一条记录是否被删除是一样的,即通过打标记对实体对象进行软删除。注意:通过Rest.li API,只能针对实体进行软删除使用示例如下:删除数据流将删除转载 2022-07-14 09:08:09 · 1019 阅读 · 0 评论