![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 78
大数据
_Charison
这个作者很懒,什么都没留下…
展开
-
10. HBase
文章目录10.1 HBase 架构10.2 Hbase数据存储结构10.3 HBase 工作流程1. 读流程2. 写流程3. 数据 Flush 流程10.4 HBase 和 Hive10.5 RowKey 设计10.1 HBase 架构HBase 也是 Master/Slaves 架构,由一个 HMaster 和多个 HRegionServer 构成。从上图中能看出 HBase 是由 Client、ZooKeeper、HMaster、HRegionServer、HDFS 等几个组件组成,组件的相关功原创 2021-04-21 14:50:41 · 155 阅读 · 0 评论 -
9. Kafka
文章目录9.1 消息中间件MQ9.2 Kafka 是什么9.3 Kafka 架构9.4 为什么一个 Topic 要分成多个 Partition9.1 消息中间件MQ什么是消息中间件:消息中间件关注数据的发送和接收,主要解决的是分布式系统之间的消息传递问题。通过提供 消息传递 和 消息排队 模型,可以在分布式架构下扩展进程间的通信。常见的消息中间件:ActiveMQ,RabbitMQ,RocketMQ,Kafka,Redis消息中间件的术语:Broker:消息服务器,提供核心服务Produc原创 2021-04-19 15:18:12 · 119 阅读 · 0 评论 -
8. Flume
文章目录8.1 Flume 是什么8.2 Flume 架构,Put事务,Take事务8.1 Flume 是什么Flume用于将多种来源的日志以 流 的方式传输至Hadoop或者其它目的地。Flume特点:可靠性:Flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。Flume 使用事务性的方式保证传送 Event 整个过程的可靠性。可恢复性:Events 在通道中执行,由该通道管理从失败中原创 2021-04-18 15:49:18 · 111 阅读 · 0 评论 -
7. Hive
文章目录7.1 Hive是什么?7.2 Hive 和数据库的区别7.3 Hive 架构7.4 内部表和外部表7.5 排序的区别7.6 窗口函数7.7 Hive 优化7.7.1. Map Join7.7.2. 行列过滤7.7.3. group by 去重7.7.4. 数据倾斜1. 数据倾斜原因2. 调整 Map 数3. 调整 Reduce 数7.7.5 JVM 重用7.1 Hive是什么?简单来说,Hive 就是在 Hadoop 上架了一层 SQL 接口,可以将 SQL 翻译成MapReduce 去 Ha原创 2021-04-17 15:28:08 · 152 阅读 · 0 评论 -
6. Zookeeper
文章目录6.1 选举机制6.2 常用命令6.1 选举机制半数机制(Paxos 协议):集群中半数以上机器存活,集群可用。所以 zookeeper 适合装在奇数台机器上。当集群开启的数量在半数以上时,就会将 Leader 选出来,例如,有 id 为1,2,3三台机器,按顺序启动,第一台开启时,zookeeper 的日志会报错,因为启动数量没有达到集群的一半。继续启动机器2,数量多于一半,然后根据 id 的大小选出 Leader,则2号当选。当3号机器启动时, Leader 已经存在,则只能当小弟了。6原创 2021-04-16 09:59:46 · 94 阅读 · 0 评论 -
5. Hadoop 优化
1)数据输入小文件处理:合并小文件:对小文件进行归档(har)、自定义 inputFormat、将小文件存储成 sequenceFile 文件采用 CombineFileInputFormat 作为输入,解决输入端的大量小文件场景对于大量小文件 Job,可以开启 JVM 重用,推荐阅读:Hadoop的JVM重用2)Map 阶段增大环形缓冲区大小。由 100M 扩大到 200M增大环形缓冲区溢写的比例。由 80% 扩大到 90%减少对溢写文件的 merge 次数不影响实际业务的前提下,采原创 2021-04-16 09:33:32 · 74 阅读 · 0 评论 -
4. Yarn
文章目录4.1 调度器定义、区别4.2 Yarn 的 job 提交流程4.1 调度器定义、区别1)Hadoop 调度器主要分为三类:FIFO、Capacity Scheduler(容量调度器)和 Fair Scheduler(公平调度器)。Hadoop 2.7.2 默认的资源调度器是 容量调度器。2)区别:① FIFO 调度器:先进先出② 容量调度器:允许多个队列共享一个Hadoop集群,每个队列所分配的集群资源是固定的且可配置的。每个队列内部还可以进一步划分成小队列,小队列之间共享整个队列原创 2021-04-15 16:19:34 · 88 阅读 · 0 评论 -
3. Hadoop
文章目录3.1 Hadoop 常用端口号3.2 配置文件以及简单的 Hadoop 集群搭建3.3 HDFS 读流程3.4 HDFS 写流程3.5 MapReduce 过程发生了多少次排序?3.1 Hadoop 常用端口号dfs.namenode.http-address : 50070SecondaryNameNode : 50090dfs.datanode.address : 50010fs.defaultFS : 8020或9000yarn.resourcemanager.webapp.a原创 2021-04-14 15:14:44 · 87 阅读 · 0 评论 -
1. 代码手写
文章目录1.1 快速排序1.2 归并排序1.3 手写 Spark-WordCount1.4 冒泡排序1.7 高效读取大数据文本文件(上亿行数据)1.1 快速排序快速排序:时间复杂度平均o(nlogn),最坏o(n²)空间复杂度平均o(logn),最坏o(n)不稳定public void quickSort(int[] arr, int left, int right) { if (left >= right) return; int temp = arr[left]原创 2021-04-12 15:26:08 · 114 阅读 · 0 评论