![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据实战精英+架构师
文章平均质量分 82
本专栏与大多数从0到1的大数据专栏不同,本专栏由大厂在职实战派大数据架构师亲自打造,实操讲授各种典型大数据应用的架构方案,并实操数据中台、数仓、数据湖以及湖仓一体化等多个项目。最终,帮大数据从业者掌握大数据架构、实时计算、数据湖、数据中台、湖仓一体化等大厂热门技能,成为企业抢手的大数据综合型人才。
大数据研习社
「大数据研习社」号主,实战大数据(Hadoop+Spark+Flink)作者,从Java开发到大数据开发13年。微信:dashuju_2017,加好友备注CSDN。
展开
-
Kettle 实战教程
4.7 分区....................................................................................................88。4.8 集群....................................................................................................88。原创 2023-01-31 16:02:55 · 1023 阅读 · 0 评论 -
k8s1.25版本集群部署(亲测有效)
实际上就是安装两个软件, ntpdate-4.2.6p5-12.el6.centos.2.x86_64是用来和某台服务器进行同步的,ntp-4.2.6p5-12.el6.centos.2.x86_64ntp-4.2.6p5-1.el6.centos.x86_64 是用来提供时间同步服务的。# 这段话是在主节点kubeadm init时复制过来的, 注意添加--cri-socket。#不开启ipvs将会使用iptables,但是效率低,所以官网推荐需要开通ipvs内核。原创 2022-11-23 10:44:42 · 3591 阅读 · 2 评论 -
性能提升5倍!火山引擎如何为 ClickHouse 实现资源隔离?
当该资源组有一个查询结束,引擎会执行该资源组等待队列中最早的查询;如果此时该资源组等待队列为空,则会触发父资源组的资源释放,进一步触发该父资源组的其他子资源组的等待队列查询执行,实现并发 Quota 在一个父资源组之间的共享。基本思路是将并发、内存、CPU 等资源拆分给不同的资源组,同时通过资源组的父子关系实现不同资源组共享部分资源的能力。当用户的查询提交给引擎,依照定义的规则选定相应的资源组,然后评估该资源组以及父资源组是否能够执行该查询,如是则直接执行,否则进入该资源组的等待队列,等待资源释放。原创 2022-11-16 15:25:35 · 359 阅读 · 0 评论 -
整理了173家国企清单,跳槽必备!
银行是个比较大的话题:3家政策行(稳定+高薪),6大国有行,12家全国股份行。每个省的地方性城市银行,地方性农商行,未改制的省联社,还有一批地级市小银行。原创 2022-11-16 15:21:10 · 19079 阅读 · 0 评论 -
kubeadm安装kubernetes
-ignore-preflight-errors= :忽略运⾏时 的错误,例如上⾯⽬前存在[ERROR NumCPU]和[ERROR Swap],忽略这两个报错就是增加 --ignore-preflight-errors=NumCPU 和--ignore-preflight-errors=Swap的配置即可。默认情况下, Kubelet不允许所在的主机存在交换分区,后期规划的时候,可以考虑在系统安装的时候不创建交换分区,针对已经存在交换分区的可以设置忽略禁⽌使⽤Swap的限 制,不然⽆法启动Kubelet。原创 2022-11-09 11:11:57 · 655 阅读 · 0 评论 -
Docker快速部署Tomcat
做宿主机端口映射(外部访问内部Tomcat容器,需要做端口映射,否则无法访问)docker run -p 8000:8080 -d tomcat #后台运行。拉取Tomcat镜像命令:docker pull tomcat:latest。docker run -p 8000:8080 tomcat #前台运行。#强制删除正在运行的Tomcat容器。(5)访问Tomcat(无需重启)(1)查看Tomcat 容器id。#强制删除tomcat 镜像。(2)进入Tomcat容器。#删除tomcat 镜像。原创 2022-11-09 10:54:59 · 521 阅读 · 0 评论 -
Docker容器化(2):Docker安装部署
yum-utils是yum的安装工具包,可以简化安装过程中设置安装源的配置过程。docker内部容器如果需要进行数据存储,需要通过device-mapper-persistent-data和lvm2数据存储驱动来完成数据存储。地址:https://docs.docker.com/engine/install/centos/因为国外的安装源下载速度比较慢,所以可以设置为国内的阿里云安装源。地址:https://www.aliyun.com/#缓存软件包信息,提高搜索/安装软件的速度。原创 2022-11-09 10:52:30 · 432 阅读 · 0 评论 -
Docker容器化(1):Docker架构原理
它封装的是软件的运行环境。容器本质是Linux里的进程,但容器通过Namespace和Cgroups,可有自己的root文件系统、网络配置、进程空间,甚至自己的用户ID空间,如此容器里的进程就像运行在宿主机上的另外一个单独的os内,从而实现与宿主机os里运行的其他进程隔离。多部署:在一台物理机上,可以创建多台虚拟机(可以利用如VMware软件),创建的每个虚拟机彼此间相互独立,每台虚拟机都拥有属于自己的软件和硬件资源,而且这些资源是彼此相互隔离的,其中一台虚拟机出现了问题,不会对其他虚拟机产生影响。原创 2022-11-09 10:49:29 · 1061 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十六)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-09-15 16:18:53 · 568 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十五)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-08-31 15:00:07 · 712 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十四)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-08-30 16:20:56 · 998 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十三)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-08-25 15:30:45 · 928 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十二)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-08-16 15:14:02 · 498 阅读 · 0 评论 -
数据库数据采集利器FlinkCDC
持续分享有用、有价值、精选的优质大数据干货致力于打造全网最优质的大数据专题原创 2022-08-10 15:26:10 · 4223 阅读 · 0 评论 -
Flink SQL搭建实时数仓DWD层
Flink SQL 搭建实时数仓,极大减少了开发复杂度,提高了项目开发效率原创 2022-08-01 17:59:26 · 1290 阅读 · 0 评论 -
实时数仓架构演进及选型
为什么实时数仓越来越受欢迎?1.传统的离线数仓已经发展很多年,技术相对比较成熟,越来越多的公司把注意力放到了挑战性更高的实时上来;2.随着存量市场竞争的到来,对于速度的要求越来越快,T+1已经不能满足数据的获取要求。实时数仓的构建需求应运而生!...原创 2022-08-01 17:54:30 · 328 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十一)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-08-03 11:55:51 · 464 阅读 · 0 评论 -
Clickhouse架构与设计
Column提供了数据的读取能力,DataType提供了序列化和反序列化,Block在这些对象的基础上实现了进一步的抽象和封装,从而简化了整个使用的过程,仅通过Block对象就能完成一系列的数据操作。虽然Column和Field组成了数据的基本映射单元,但在实际操作中还缺少一些必要信息,如数据的类型和列的名称,于是ClickHouse设计了Block对象,ClickHouse内部的数据操作是面向Block对象进行的,Block对象可以看作是数据表的子集。让电脑的各个部件顺利工作,起到协调和控制作用。...原创 2022-07-27 17:05:03 · 2718 阅读 · 0 评论 -
Clickhouse分布式集群搭建
这种方法更为安全,它可以把使用这些环境变量的权限控制到用户级别,这里是针对某一个特定的用户,如果你需要给某个用户权限使用这些环境变量,你只需要修改其个人用户主目录下的.bashrc文件就可以了。这里是针对所有的用户的,所有的shell。Zookeeper最小集群是3节点集群,生产环境中100节点以下集群3个Zookeeper节点就够用,500节点以下集群5节点就够用。可以到官网下载对应版本的jdk,这里选择安装jdk1.8版本,并上传至/home/hadoop/app目录下。...原创 2022-07-27 16:43:17 · 4085 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-08-01 16:31:53 · 344 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(九)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-07-26 16:41:54 · 470 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(八)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-07-25 15:07:53 · 793 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(七)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-07-22 15:16:13 · 462 阅读 · 0 评论 -
FlinkCDC2.0利用FlinkSQL采集MySQL
FlinkCDC2.0解决了数据采集哪些问题呢?1.全量采集+增量采集的一致性需要加锁来保证2.不支持水平扩展3.全量采集阶段不支持checkpoint原创 2022-07-18 12:59:05 · 1555 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(五)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-07-18 15:13:03 · 460 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(四)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-07-13 15:20:55 · 1176 阅读 · 0 评论 -
FlinkSQL自定义UDATF实现TopN
FlinkSQL的Table Aggregate functions对标Hive的UDATF,可以实现数据多进多出的聚合炸裂效果,常应用与window topn等应用场景。原创 2022-06-28 12:41:20 · 518 阅读 · 0 评论 -
FlinkSQL自定义UDAF使用的三种方式
FlinkSQL的Aggregate functions对标Hive的UDAF,可以实现数据多进一出的聚合效果,可以用于求最大值、最小值、平均值等应用场景。原创 2022-06-28 12:38:02 · 971 阅读 · 0 评论 -
FlinkSQL自定义UDTF使用的四种方式
FlinkSQL的Table functions对标Hive的UDTF,可以实现数据⼀进多出的炸裂效果,广泛应用与电商、运营商、手机厂商等数据处理过程。原创 2022-06-28 12:35:34 · 1770 阅读 · 0 评论 -
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(二)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-06-28 11:17:00 · 796 阅读 · 0 评论 -
Flink CDC 在大健云仓的实践
Flink CDC 在大健云仓的实践原创 2022-06-15 11:54:17 · 220 阅读 · 0 评论 -
大数据算法面试题目及答案(一)
大数据算法面试题目及答案原创 2022-06-14 15:53:20 · 1230 阅读 · 0 评论 -
Apache Ambari:有一种惊喜,叫死而复生!
Apache Ambari:有一种惊喜,叫死而复生原创 2022-06-14 10:24:20 · 3705 阅读 · 0 评论 -
【先收藏,早晚用得到】100个Flink高频面试题系列(一)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-06-06 11:40:13 · 634 阅读 · 2 评论 -
【面试真题】今日头条大数据面试100题,收藏备用
1、简述WordCount 的实现过程2、简述MapReduce与 Spark 的区别与联系3、Spark 在客户端与集群运行的区别4、相同的 SQL 在 HiveSql 与 SparkSQL 的实现中,为什么 Spark 比 Hadoop 快5、简述自定义 UDF实现过程6、HBase 表设计有哪些注意事项7、谈谈你对HBase 的 HLog的理解8、数据同样存在 HDFS,为什么 HBase支持在线查询9、SparkSQL操作Hive中的数据遇到过什么问题嘛?10、S原创 2022-05-30 18:45:59 · 1913 阅读 · 0 评论 -
【先收藏,早晚用得到】49个Flink高频面试题系列(二)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-05-31 17:04:11 · 360 阅读 · 0 评论 -
【先收藏,早晚用得到】49个Flink高频面试题系列(一)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-05-26 14:43:13 · 1932 阅读 · 1 评论 -
【收藏吧,真的很有用的大数据面试专题】面试了8家,每次都会被面到这几道Flink面试题
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-05-24 18:27:57 · 244 阅读 · 0 评论 -
《2022 大数据技术与架构视频合集》附PPT和文档,限时下载
【传道篇】大数据架构师之技术栈及职业修养01 大数据技术生态与架构演进02 大数据技术体系与主流技术栈03 大数据行业职位划分&典型职业发展路径04 如何规划自己的职业发展方向05 怎样学好大数据技术【技术篇】Flink状态管理与容错机制01 如何理解Flink状态02 如何利用Flink状态进行编程03 深入Flink容错机制与故障恢【技术篇】Flink实现维表关联的几种方式01 维表关联的典型场景和考量标准02 维表关联方式1:实时lookup数据原创 2022-05-24 16:25:18 · 403 阅读 · 0 评论 -
项目案例:Flink1.14 SQL实现Window TOPN
在Flink1.13版本中,提出了窗口表值函数(Window TVF)的实现,用于替代旧版的窗口分组(group window)语法,极大简化了Flink SQL代码量,同时提高了执行性能。原创 2022-05-12 18:12:33 · 1200 阅读 · 0 评论