大数据
文章平均质量分 83
bluedraam_pp
不是有希望才坚持,是坚持才有希望
展开
-
Flink 的算子介绍(下)
Flink 算子原创 2023-02-24 14:24:57 · 306 阅读 · 0 评论 -
Flink 的算子介绍(上)
Flink 算子用法总结原创 2023-02-24 11:28:53 · 919 阅读 · 0 评论 -
模拟分布式事务
分布式事务原创 2023-02-19 16:13:31 · 85 阅读 · 0 评论 -
zookeeper 的 Watch 功能三种应用场景
zookeeper wacth 管理节点的高可用 分布式系统中的配置热部署 分布式锁原创 2022-11-10 21:48:56 · 1025 阅读 · 0 评论 -
Kafka 端到端数据完整性
完整性如何保证数据的端到端的数据完整性?这里说的完整性,就是说“不丢数据”,这里是不丢数据的意思。这里没有保准数据的一致性。也就是说,sink 端收到的数据可能是重复的。如果要保证完整性,需要再 producer 端、broker 端、consumer 端,这三个地方下功夫。producer 端producer 端可以有两种发送方式,一个是只负责发送,至于 broker 收到没有收到那就不管了。另外一种类似 TCP 协议,每一个 TCP 包都会有一个 ACK 回复,收到 ACK 才确定这条数据发送原创 2021-08-23 22:12:43 · 538 阅读 · 0 评论 -
Flink_窗口的底层实现逻辑
目的写这篇文目的是为了加深对窗口和 watermark 的理解。先感谢这位博主的辛勤劳动。我做的分析就是基于这位大侠做的。下面上正题。正题窗口总体流程窗口是用来切割无线流的,它把无线流切分成有限个碎片,通过计算碎片来计算流的某些性质。就像积分计算求球的体积。它将从球新到表面扇柱体是一个正方体,然后使用极限的思路,然后就计算出球体的体积。根据不同的需求,我们有下面几种窗口类型。数据流是无限的,我们可以统计每 n 个单位时间内的一些统计值。这就是 Tumbling 窗口。我们也可以每隔 3原创 2020-11-22 17:32:15 · 614 阅读 · 0 评论 -
再来道面试题
题目取出每月连续 5 天有登录记录的用户。解题方法create table member_log aswith detail as ( select '4/11/2020' as date_d , 'A' as member_code , 21 as sale_amt union all select '4/12/2020' as date_d , 'A' as member_code , 23 as sale_amt union all sel原创 2020-08-05 22:45:06 · 238 阅读 · 0 评论 -
拉链表应用——财务总账
需求原创 2020-07-08 08:32:47 · 709 阅读 · 0 评论 -
至今指标总结
*至今指标累加是什么全量如何计算整理如何计算增量和全量计算的优缺点分析原创 2020-07-03 15:52:51 · 2758 阅读 · 0 评论 -
数据中台的一些问题整理
需求调研阶段如何保证需要不漏、理解正确,减少不返工?如何描述清楚源数据中表的关联关系,使用什么工具和承载这个功能?设计阶段如何设计维表元数据解决了什么问题,如果没有思路,可以问一下详细的问题数据一致性的问题,包括指标口径不一致、测试问题数据复用提高取数效率降低学习成本统一管理元数据,避免团队数据孤岛保证数据质量,准(准时、准确)全(oneData),效果是数据用户敢用、放心用、用的有价值。如果要做一个数据中台的项目,我们应该如何设计组织架构。调度平台的核心功能:定时调度原创 2020-06-30 16:55:15 · 619 阅读 · 0 评论 -
数据开发的工具箱
Linux 交互XshellMobaXtermWinScpsecurityRcputty代码管理git for windowsourceTree高级编辑器sublimeAtomnodepad++vsCodevim数据库交互全能选手:DBeavernavigator: sqlserver mysql平台数据交互sqoopdataxflumehive 命令行-f--hivevar or --hiveconf-e-f--showHeade原创 2020-06-10 09:44:53 · 533 阅读 · 0 评论 -
hadoop 的命令
维护的命令start-all.sh/stop-all.sh:启动/关闭所有,包括 nodeName、dataNode、secordaryNode、resourcManage(yarn),不过,这两个命令已经废弃了,所谓长江后浪推前浪,下面来看一下新秀命令stop-dfs.sh/start-dfs.sh:启动/关闭 nodeName、dataNode、secordaryNodestop-y原创 2017-11-20 23:47:52 · 250 阅读 · 0 评论 -
hadopp 环境搭建
我的配置我在虚拟机中设置了三个实例,以下是它们的名字s1:master s2:slaves3:slave虚拟机的网络配置配置固定 IPvi /etc/network/interfacesauto eth0iface eth0 inet staticaddress 192.168.191.128netmask 255.255.255.0gateway 192原创 2017-11-14 22:16:29 · 560 阅读 · 0 评论