大数据架构
文章平均质量分 76
spark,flink,hadoop....
看不见的罗辑
人工智能芯片方向正在Running的萌新,欢迎大家一起来交流。
后续内容将在WX公众号上同步更新,请关注RFTAE。
WX公众号:RFTAE,又名Run faster than anyone else,即跑得比谁都快,希望大家都能跑得比谁都快,实现自己的理想或愿望...
展开
-
数据湖概述以及未来发展
本文重点介绍了数据库的发展,数据湖概述,数据湖的本质以及数据湖如何实现和我们是否真的需要数据湖。原创 2022-10-16 18:14:02 · 1219 阅读 · 0 评论 -
Flink SQL常见问题
首先是双流关联的大状态问题,FlinkSQL 的双流关联会保留左右流的历史数据来互相关联,需要关联的时间间隔越长,保存的历史数据就会越多,状态也就会越大。比如,要关联订单的下单事件和退款事件,并保证计算结果的正确性,需要考虑这两个事件发生的间隔,可能是一个月甚至更久。上图左侧是一个双流关联的有状态 SQL 作业,图中的 Mem 和 Disk 组成了 SQL 作业的 TaskManager 节点,SQL 作业状态后端使用 RocksDB,状态持久化在 HDFS 文件系统上。一开始我们尝试把 SQL 作业的状态原创 2022-06-28 18:17:47 · 1447 阅读 · 0 评论 -
2022Flink大数据比赛项目-焦点科技大数据编程大赛
本文主要是针对有一定flink经验的同学,想巩固基础或者提升学习使用。本文解答也用了flink的大部分基础知识,像是窗口,状态编程,水位线,多流join等等,希望能给你带来一些启发。原创 2022-11-28 13:58:59 · 848 阅读 · 0 评论 -
PAXOS协议
最近几年分布式协议在数据库产品中飞速发展,各大公司都有基于特定场景相应的分布式数据产品出现,国内典型的包括腾讯的基于Paxos的PhxSQL,阿里的X-Paxos AliSQL,以及官方的Group Replication,还有percona 分支的基于Galera 协议的PXC。因此,理解分布式协议尤其重要,深入的理解之后,才能知道它存在的适用场景,才能在合适的业务上充分发挥它的功能。本文不讲解其他的分布式协议,包括zookeeper的ZAB协议,以及Paxos的简化版raft的协议,重在讲解分布式协议转载 2021-10-21 16:29:24 · 3391 阅读 · 0 评论 -
flink与flink-client的版本对应
目前flink版本从0.6~1.14.0对应的flink-client版本对应 无版本号,2.10,2.11,2.12先说无版本号的是flink0.9版本即以前(太老了不做介绍)2.10对应flink(0.9以上带有hadoop版本 如:flink1.0.1-hadoop1)2.11对应flink(0.9~1.6.4非hadoop版本 如:flink1.6.4)2.12对应flink(1.7.0~最新版本 如:flink1.13.3)依赖添加方法:<!-- https://mvnrepo原创 2021-11-02 21:42:14 · 4099 阅读 · 0 评论 -
flink从0到第一个应用成功运行遇到的所有问题和解决方法
h原创 2021-11-03 11:54:23 · 3778 阅读 · 1 评论 -
Mapreduce,mapper任务无输出以及相关问题解决,日志的正确用法
问题提出在执行MR任务时,mapper和reducer都正常运行,但是hdfs输出文件为空。(任务是关于MR执行排序任务的)数据如下:排查经历1.查看core-site.xml是不是路径(hadoop.tmp.dir属性)配置错误了,导致数据放错了位置。然而 不是2.因为没有报错**(输出空文件之前遇到过ArrayIndexOutOfBoundsException->数组越界的错误,解决也很简单:加上判断语句 。其实当时是有些怀疑是不是读取数据错误了,但是考虑可能是最后一行空值数据可能被读原创 2021-10-14 00:27:40 · 5819 阅读 · 1 评论 -
spark实验遇到的问题
问题1.0.0.0.0.8032这种问题一般是自己配置出错了,仔细检查前面的配置信息(从前到后,即使是前面配置的,也很可能当前错误是由它造成的,因为前面的运行案例都没有使用到这个配置信息),包括字母出错都可能导致这种情况。检查完成之后再重新启动一次集群。不要去尝试改变yarn集群配置(比如在yarn-site.xml中加上master:8032…),只要你之前yarn是正常启动了的,后面一般都不会修改yarn来纠正错误。除非确实该软件需要配置yarn时(如hadoop).问题2.idea编辑java程序原创 2021-11-02 21:18:21 · 350 阅读 · 0 评论 -
OpenBase关于一致性,可用性,分区容错性(CAP)分析
OceanBase 的 CAP 分析单元化架构中的成千山万的应用就像是计算器,本身无 CAP 限制,其 CAP 限制下沉到了其数据库层,也就是蚂蚁自研的分布式数据库 OceanBase(本节简称 OB)。在 OB 体系中,每个数据库实例都具备读写能力,具体是读是写可以动态配置。实际情况下大部分时候,对于某一类数据(固定用户号段的数据)任意时刻只有一个单元会负责写入某个节点,其他节点要么是实时库间同步,要么是异步数据同步。OB 也采用了 PAXOS 共识协议。实时库间同步的节点(包含自己)个数至少需要原创 2021-10-21 17:23:52 · 768 阅读 · 0 评论