![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
面试知识总结
文章平均质量分 86
人生路且修且行
大数据开发,一起探讨一起进步吧
展开
-
大文件处理方案
处理海量数据问题,无非就是:分而治之/hash映射 + hash统计 + 堆/快速/归并排序;Bloom filter/Bitmap;Trie树/数据库/倒排索引;外排序;分布式处理之hadoop/mapreduce。本文接下来的部分,便针对这5种方法模式结合对应的海量数据处理面试题分别具体阐述。密匙一、分而治之/hash映射 + hash统计 + 堆/快速/归并排序1、海量日志数据,提取出某日访问百度次数最多的那个IP。既然是海量数据处理,那么可想而知,给我们的数据那就一定是海量的。针对转载 2021-03-16 09:48:44 · 960 阅读 · 0 评论 -
常见的压缩格式
压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度坏处由于使用数据时,需要先将数据解压,加重CPU负荷2. 压缩格式压缩比压缩时间可以看出,压缩比越高,压缩时间越长,压缩比:Snappy>LZ4>LZO>GZIP>BZIP2需要安装;linux系统下没有对应的命令d. b...转载 2019-11-21 18:35:44 · 866 阅读 · 0 评论 -
数据仓库和数据库的区别
什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业务流程改进、监视时间,成本,质量以及控制等;数据仓库能干什么?(举几个栗子)年度销售目标的制定,需要根据以往的历史报表进行决策,不能随便制定。优化业务流...转载 2019-11-21 18:25:06 · 283 阅读 · 0 评论 -
Yarn三种调度策略
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。 在Yarn中有三种调度器可以选择:FI...转载 2019-11-21 18:21:01 · 1641 阅读 · 0 评论 -
常见垃圾回收器分类
垃圾回收器分为新生代和老年代垃圾回收器。新生代垃圾回收器:Serial(单线程)、ParNew(多线程)、Parallel Scavenge(多线程)老年代垃圾回收器:Serial Old(单线程)、Parallel Old(多线程)、CMS(标记-清除算法)整堆回收器:G1新生代垃圾回收器一般采用复制算法回收垃圾,优点是效率高,缺点是内存利用率低老年代垃圾回收器一般采用标记-整理算法...转载 2019-11-21 18:15:24 · 267 阅读 · 0 评论 -
索引原理-btree索引与hash索引的区别
btree索引是 一级索引,不支持区间查询操作,但数据量大的时候查询速度快hash索引是 二叉树索引,具有二叉树的特点Hash索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以Hash索引的查询效率要远高于B-Tree索引。可能很多人又有疑问了,既然Hash索引的效率要比B-Tree高很多,为什么...转载 2019-11-21 18:12:18 · 475 阅读 · 0 评论 -
B、B+、LSM树
动态查找树主要有:二叉查找树、平衡二叉树、红黑树、B树、B+树。前面三种是典型的二叉查找树,查找的时间复杂度是O(log2N)与树的深度有关系,那么降低树的深度也就可以提升查找效率。这时就提出了平衡多路查找树,也就是B树以及B+树。B树和B+树非常典型的场景就是用于关系型数据库的索引(MySQL)B树B树是一种平衡多路搜索树,B树与红黑树最大的不同在于,B树的结点可以有多个子女,从几个到几千...转载 2019-11-21 18:05:03 · 169 阅读 · 0 评论