![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 77
水花一直飞
这个作者很懒,什么都没留下…
展开
-
Spark 数仓项目
数仓项目原创 2022-06-23 16:11:32 · 613 阅读 · 1 评论 -
Spark源码
spark源码原创 2022-06-23 16:09:36 · 1123 阅读 · 1 评论 -
Spark-3.0.0 重点归纳
spark重点归纳原创 2022-06-23 16:07:25 · 1382 阅读 · 0 评论 -
大海哥面试大保健
一、Linux1.常用的高级命令top: 查看内存;可以看到总体的系统运行状态和cpu的使用率ps -ef: 查看服务器的进程信息df -h: 显示磁盘分区使用情况netstat: 显示整个 Linux 系统的网络状态tar: 压缩和解压缩命令find -name: 文件查找rpm: 用于互联网下载包的打包及安装工具jmap -heap: 根据进程号,查看进程内存jstat -gc pid: 可以显示gc的信息,查看进程JVM垃圾回收的次数及时间二、Shell1.了解常用命令名字原创 2022-05-27 12:17:48 · 475 阅读 · 0 评论 -
Kafka生产调优
第 1 章 Kafka 硬件配置选择1.1 场景说明100 万日活,每人每天 100 条日志,每天总共的日志条数是 100 万 * 100 条 = 1 亿条。 1 亿/24 小时/60 分/60 秒 = 1150 条/每秒钟。每条日志大小:0.5k - 2k(取 1k)。1150 条/每秒钟 * 1k ≈ 1m/s 。高峰期每秒钟:1150 条 * 20 倍 = 23000 条。每秒多少数据量:20MB/s。1.2 服务器台数选择服务器台数= 2 * (生产者峰值生产速率 * 副本 / 10原创 2022-05-26 09:46:55 · 1414 阅读 · 0 评论 -
关于HashMap的面试问题
关于HashMap的面试问题1、HashMap的底层实现答:JDK1.7及其之前的版本是数组+链表,JDK1.8是数组+链表/红黑树2、HashMap的数组的元素类型答:java.util.Map$Entry接口类型。JDK1.7的HashMap中有内部类Entry实现Entry接口JDK1.8的HashMap中有内部类Node和TreeNode类型实现Entry接口,并且TreeNode是Node的子类。3、为什么要使用数组?答:因为数组的访问的效率高或者说,根据[下标]操作效率原创 2022-05-24 08:14:35 · 146 阅读 · 0 评论 -
Kafka3.x重点归纳
第1章 Kafka概述1.1 定义1.2 传统消息队列的应用场景传统的消费队列的主要应用场景有:缓存/削峰、解耦、异步通信。1.3 消息队列的两种模式消息队列主要分为两种模式:点对点模式和发布/订阅模式。1.4 Kafka基础架构1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,向kafka broker取消息的客户端;3)Consumer Group (CG):消费者组,由多个consumer组成。消费者原创 2022-05-23 19:48:59 · 349 阅读 · 0 评论 -
Zookeeper重点归纳
第1章 Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应.(观察者模式)Zookeeper = 文件系统 + 通知机制1.2 特点1.3 数据结构1.4 应用场景原创 2022-05-18 15:34:54 · 55 阅读 · 0 评论 -
hadoop环形缓冲区原理
hadoop环形缓冲区转载 2022-05-11 20:44:58 · 1164 阅读 · 0 评论 -
Hadoop源码解析
Hadoop源码解析原创 2022-05-11 18:43:59 · 895 阅读 · 0 评论 -
hadoop面试题(全)
前言 来自大数据老哥的博客,[原文出处](https://blog.csdn.net/qq_43791724/article/details/113761869 用于查漏补缺1、集群的最主要瓶颈 磁盘IO 2、Hadoop运行模式 单机版、伪分布式模式、完全...转载 2022-05-06 19:01:59 · 5042 阅读 · 0 评论 -
hadoop Yarn面试重点
Yarn面试重点原创 2022-05-03 17:19:43 · 832 阅读 · 0 评论 -
hadoop HDFS 面试重点
HDFS面试重点原创 2022-05-03 17:18:36 · 853 阅读 · 0 评论 -
hadoop源码阅读(一)(InputFormat源码)
记录一下读大数据框架源码的详细方法原创 2022-04-27 22:53:23 · 961 阅读 · 0 评论 -
hadoop源码阅读(四)(分区源码)
分区源码原创 2022-04-30 23:12:58 · 494 阅读 · 0 评论 -
MapReduce详细工作流程
MapReduce详细工作流程(未完成)原创 2022-04-28 18:20:32 · 3636 阅读 · 0 评论 -
hadoop源码阅读(三)(InputFormat切片源码)
切片源码(原创不易)原创 2022-04-30 13:18:04 · 494 阅读 · 0 评论 -
hadoop源码阅读(二)(Job提交源码)
Job提交流程(原创不易)原创 2022-04-28 18:17:44 · 731 阅读 · 0 评论