大数据_苏书QAQ的博客-CSDN博客

大数据

关注

文章平均质量分 83

关注数：文章数：13 文章阅读量：14112 文章收藏量：346

作者: 苏书QAQ

免责声明：资料部分来源于合法的互联网渠道收集和整理，部分自己学习积累成果，供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。本人尊重原创作者或出版方，资料版权归原作者或出版方所有，本人不对所涉及的版权问题或内容负法律责任。如有侵权，请举报或通知本人删除。

展开

【大数据】Kafka高频面试题（四）

Kafka 生产者发送消息主要有三种模式:发后即忘发送模式发后即忘模式「fire-and-forget」，它只管发送消息，并不需要关心消息是否发送成功。其本质上也是一种异步发送的方式，消息先存储在缓冲区中，达到设定条件后再批量进行发送。这是 kafka 吞吐量最高的方式，但同时也是消息最不可靠的方式，因为对于发送失败的消息并没有做任何处理，某些异常情况下会导致消息丢失。同步发送模式同步发送模式「sync」，调用 send() 方法会返回一个 Future 对象，再通过调用 Future 对象的 get()

原创 2023-03-05 21:46:19 · 790 阅读 · 0 评论
【大数据】Kafka高频面试题（三）

传统的消息传递方法包括两种：队列：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人发布-订阅：在这个模型中，消息被广播给所有的用户。

原创 2023-03-05 21:45:33 · 687 阅读 · 0 评论
【大数据】Kafka高频面试题（二）

在我看来，这纯属无聊的炫技。试问我不知道又能怎样呢？！不过既然问到了，我们就统一说一说。

原创 2023-02-28 20:57:53 · 495 阅读 · 0 评论
【大数据】kafka 线上会遇到哪些问题？

生产者在发送消息时，将消息对应的id进行取模处理，相同的id发送到相同的分区。消息在分区内有序，一个分区对应了一个消费者，保证了消息消费的顺序性。

原创 2023-02-27 20:57:32 · 640 阅读 · 0 评论
【大数据】Kafka高频面试题（一）

首先我们来看看什么是「消费者组」:消费者组 Consumer Group，顾名思义就是由多个 Consumer 组成，且拥有一个公共且唯一的 Group ID。组内每个消费者负责消费不同分区的数据，**但一个分区只能由一个组内消费者消费，**消费者组之间互不影响。为什么 Kafka 要设计 Consumer Group, 只有 Consumer 不可以吗？

原创 2023-02-26 10:31:21 · 796 阅读 · 0 评论
【大数据】大数据学习路线

首先明确一点：大数据涉及的知识面广度还是有的，需要学习的组件繁多，想要每一项精通几乎不可能，所以企业在招聘的时候会进行细分，基于某个方向进行招聘，比如关键字，数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重，保证自己兴趣所致并重点关注。

原创 2023-02-15 19:49:44 · 5788 阅读 · 1 评论
【云原生】Hadoop HA on k8s 环境部署

在 Hadoop 2.0.0 之前，一个集群只有一个Namenode，这将面临单点故障问题。如果 Namenode 机器挂掉了，整个集群就用不了了。只有重启 Namenode ，才能恢复集群。另外正常计划维护集群的时候，还必须先停用整个集群，这样没办法达到 7 * 24小时可用状态。Hadoop 2.0 及之后版本增加了 Namenode 高可用机制，这里主要讲Hadoop HA on k8s 环境部署。

转载 2023-01-17 19:16:19 · 387 阅读 · 0 评论
【云原生】Hive on k8s 环境部署

Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统。大数据Hadoop之——数据仓库HiveHive 架构Hive 客户端架构。

转载 2023-01-17 19:14:12 · 439 阅读 · 0 评论
【云原生】Redis on k8s 编排部署讲解与实战操作

Redis 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统，是跨平台的非关系型数据库。Redis有三种集群模式：主从模式，Sentinel（哨兵）模式，Cluster模式，这三种模式环境编排部署都会在本文章介绍与实战操作。Redis原理介绍与环境部署（主从模式、哨兵模式、集群模式）

转载 2023-01-16 13:46:27 · 184 阅读 · 0 评论
【大数据】Python使用Hive

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

原创 2023-01-15 12:07:57 · 1064 阅读 · 0 评论
【大数据】ARM-服务器下安装Hadoop（单机）

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集

原创 2023-01-13 14:24:35 · 637 阅读 · 0 评论
【大数据】ARM-服务器下安装Hive

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

原创 2023-01-13 14:01:22 · 393 阅读 · 0 评论
【云原生】Docker-compose部署flink

Apache Flink的数据流编程模型在有限和无限数据集上提供单次事件（event-at-a-time）处理。在基础层面，Flink程序由流和转换组成。Apache Flink的API：有界或无界数据流的数据流API、用于有界数据集的数据集API、表API。[3]数据流的运行流程Flink程序在执行后被映射到流数据流，每个Flink数据流以一个或多个源（数据输入，例如消息队列或文件系统）开始，并以一个或多个接收器（数据输出，如消息队列、文件系统或数据库等）结束。

原创 2023-01-12 12:01:44 · 1815 阅读 · 0 评论

大数据

作者: 苏书QAQ

【大数据】Kafka高频面试题（四）

【大数据】Kafka高频面试题（三）

【大数据】Kafka高频面试题（二）

【大数据】kafka 线上会遇到哪些问题？

【大数据】Kafka高频面试题（一）

【大数据】大数据学习路线

【云原生】Hadoop HA on k8s 环境部署

【云原生】Hive on k8s 环境部署

【云原生】Redis on k8s 编排部署讲解与实战操作

【大数据】Python使用Hive

【大数据】ARM-服务器下安装Hadoop（单机）

【大数据】ARM-服务器下安装Hive

【云原生】Docker-compose部署flink