大数据
文章平均质量分 83
苏书QAQ
免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者或出版方,资料版权归原作者或出版方所有,本人不对所涉及的版权问题或内容负法律责任。如有侵权,请举报或通知本人删除。
展开
-
【大数据】Kafka高频面试题(四)
Kafka 生产者发送消息主要有三种模式:发后即忘发送模式发后即忘模式「fire-and-forget」,它只管发送消息,并不需要关心消息是否发送成功。其本质上也是一种异步发送的方式,消息先存储在缓冲区中,达到设定条件后再批量进行发送。这是 kafka 吞吐量最高的方式,但同时也是消息最不可靠的方式,因为对于发送失败的消息并没有做任何处理,某些异常情况下会导致消息丢失。同步发送模式同步发送模式 「sync」,调用 send() 方法会返回一个 Future 对象,再通过调用 Future 对象的 get()原创 2023-03-05 21:46:19 · 790 阅读 · 0 评论 -
【大数据】Kafka高频面试题(三)
传统的消息传递方法包括两种:队列:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人发布-订阅:在这个模型中,消息被广播给所有的用户。原创 2023-03-05 21:45:33 · 687 阅读 · 0 评论 -
【大数据】Kafka高频面试题(二)
在我看来,这纯属无聊的炫技。试问我不知道又能怎样呢?!不过既然问到了,我们就统一说一说。原创 2023-02-28 20:57:53 · 495 阅读 · 0 评论 -
【大数据】kafka 线上会遇到哪些问题?
生产者在发送消息时,将消息对应的id进行取模处理,相同的id发送到相同的分区。消息在分区内有序,一个分区对应了一个消费者,保证了消息消费的顺序性。原创 2023-02-27 20:57:32 · 640 阅读 · 0 评论 -
【大数据】Kafka高频面试题(一)
首先我们来看看什么是「消费者组」:消费者组 Consumer Group,顾名思义就是由多个 Consumer 组成,且拥有一个公共且唯一的 Group ID。组内每个消费者负责消费不同分区的数据,**但一个分区只能由一个组内消费者消费,**消费者组之间互不影响。为什么 Kafka 要设计 Consumer Group, 只有 Consumer 不可以吗?原创 2023-02-26 10:31:21 · 796 阅读 · 0 评论 -
【大数据】大数据学习路线
首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重,保证自己兴趣所致并重点关注。原创 2023-02-15 19:49:44 · 5788 阅读 · 1 评论 -
【云原生】Hadoop HA on k8s 环境部署
在 Hadoop 2.0.0 之前,一个集群只有一个Namenode,这将面临单点故障问题。如果 Namenode 机器挂掉了,整个集群就用不了了。只有重启 Namenode ,才能恢复集群。另外正常计划维护集群的时候,还必须先停用整个集群,这样没办法达到 7 * 24小时可用状态。Hadoop 2.0 及之后版本增加了 Namenode 高可用机制,这里主要讲Hadoop HA on k8s 环境部署。转载 2023-01-17 19:16:19 · 387 阅读 · 0 评论 -
【云原生】Hive on k8s 环境部署
Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。大数据Hadoop之——数据仓库HiveHive 架构Hive 客户端架构。转载 2023-01-17 19:14:12 · 439 阅读 · 0 评论 -
【云原生】Redis on k8s 编排部署讲解与实战操作
Redis 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。Redis有三种集群模式:主从模式,Sentinel(哨兵)模式,Cluster模式,这三种模式环境编排部署都会在本文章介绍与实战操作。Redis原理介绍与环境部署(主从模式、哨兵模式、集群模式)转载 2023-01-16 13:46:27 · 184 阅读 · 0 评论 -
【大数据】Python使用Hive
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。原创 2023-01-15 12:07:57 · 1064 阅读 · 0 评论 -
【大数据】ARM-服务器下安装Hadoop(单机)
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集原创 2023-01-13 14:24:35 · 637 阅读 · 0 评论 -
【大数据】ARM-服务器下安装Hive
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。原创 2023-01-13 14:01:22 · 393 阅读 · 0 评论 -
【云原生】Docker-compose部署flink
Apache Flink的数据流编程模型在有限和无限数据集上提供单次事件(event-at-a-time)处理。在基础层面,Flink程序由流和转换组成。Apache Flink的API:有界或无界数据流的数据流API、用于有界数据集的数据集API、表API。[3]数据流的运行流程Flink程序在执行后被映射到流数据流,每个Flink数据流以一个或多个源(数据输入,例如消息队列或文件系统)开始,并以一个或多个接收器(数据输出,如消息队列、文件系统或数据库等)结束。原创 2023-01-12 12:01:44 · 1815 阅读 · 0 评论