面经
文章平均质量分 91
jialun0116
浙江工业大学
展开
-
超全面试汇总——Hadoop(二)
超全面试汇总——Hadoop(二)谈谈什么是Hadoop?@@MapReduce分布式计算@shuffle流程shuffle阶段的数据压缩机制了解吗MapReduce实现基本SQL操作的原理1. Join的实现原理2. Group By的实现原理3. Distinct的实现原理一个文件有上亿url,内存很小,找Top10@SQL转化为MapReduce的过程什么是数据倾斜数据倾斜的表现@发生数据倾斜的原因@如何解决数据倾斜@聚合类group by操作,发生数据倾斜@Reduce join 改为Map joi原创 2021-06-07 14:32:13 · 881 阅读 · 6 评论 -
超全面试汇总——Hadoop(一)
超全面试汇总——Hadoop(一)HDFS文件系统的特点@@HDFS的读写流程@客户端和NameNode、DataNode通信过程底层文件结构 好处@HDFS存储文件类型@HDFS的组成,重要角色HDFS的几个进程@yarn 集群的架构@yarn执行流程yarn 的资源调度三种模型HDFS的高可靠性冷备份 secondary node工作原理:@hadoop的HA(高可用)实现和zk的作用在NameNode HA中,会出现脑裂问题吗?怎么解决脑裂Zookeeper起什么作用的@ZooKeeper的选举机制@原创 2021-05-31 19:34:54 · 861 阅读 · 2 评论 -
超全面试总结——操作系统
超全面试总结——操作系统死锁的四个必要条件进程和线程的区别 和 使用场景进程间通信的方式有什么?线程间通信的方式有什么?一个进程可以创建多少线程,和什么有关?CPU负载和CPU利用率的区别是什么?如果CPU负载很高,利用率却很低该怎么办如果负载很低,利用率却很高常见Linux命令死锁的四个必要条件互斥条件:一个资源每次只能被一个进程使用。占有且等待:一个进程因请求资源而阻塞时,对已获得的资源保持不放。不可强行占有:进程已获得的资源,在末使用完之前,不能强行剥夺。循环等待条件:若干进程之间形成一种原创 2021-05-31 19:29:40 · 240 阅读 · 0 评论 -
explain分析SQL执行计划
explain分析SQL执行计划慢查询配置慢查询日志具体参数解析优化案例 LIMIT分页解决方法一 :构造覆盖索引解决方法二:优化offset解决方法三:延迟关联优化建议慢查询配置-- 查看是否开启慢查询show variables like '%slow_query_log%';+---------------------+-------------------------------------+| Variable_name | Value原创 2021-05-24 21:04:55 · 435 阅读 · 0 评论 -
Spark总结
Spark总结Spark的内置模块Spark的特点 和 hadoop的区别Spark的重要角色RDD持久化原理checkpoint检查点机制checkpoint和持久化机制的区别RDD机制理解吗Spark streaming以及基本工作原理Spark工作机制宽依赖和窄依赖Spark主备切换机制原理Spark数据倾斜的产生和解决方法Spark Sql 和 DataFrameRDD中reduceBykey与groupByKey哪个性能好Spark的内置模块Spark Core:Spark Core包含原创 2021-05-10 20:19:40 · 377 阅读 · 0 评论 -
超全面试总结——数据仓库 超详细!!!带答案!!!持续更新中~
超全面试总结——数据仓库如何理解数仓为什么要数据仓库建模为什么要设计数据分层通用的数据分层设计分层的原则是什么?数据集市和数据仓库的区别数据库和数据仓库有什么区别?维度建模三种模式 星形、雪花、星座事实表事实表设计方法维度表什么是缓慢变化的维度维度表设计方法如何维度建模最常见的三种数据仓库建模体系什么是ETL?常用的ETL工具联机分析处理 OLAPOLAP和OLTP的区别元数据(Metadata)ER建模如何理解数仓数据仓库就是整合多个数据源的历史数据进行细粒度的、多维度的分析,帮助高层管理者或者业务原创 2021-05-07 19:00:02 · 2663 阅读 · 2 评论 -
异常检测方法——DBSCAN、孤立森林、OneClassSVM、LOF、同比环比、正态分布、箱线图
基于时间序列分析 同比环比基于统计 单特征且符合正态分布基于统计 箱线图基于聚类 DBSCAN基于树模型 孤立森林基于线性模型 OneClassSVM基于密度 LOF原创 2021-05-07 15:30:01 · 4927 阅读 · 0 评论 -
超全面试汇总——Hive 超详细!!!带答案!!!持续更新中~
Hive面试总结什么是 Hive ?Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中 排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型数据库的区别Hive和HBase的对比区别Hive 小文件问题及解决Hive调优及优化列裁剪和分区裁剪谓词下推聚合类group by操作,发生数据倾斜Join 优化设置合理的map reduce的task数量sort by代替orde原创 2021-04-30 08:50:45 · 7466 阅读 · 1 评论 -
超全面试汇总——MySQL
三大范式四大原则 ACID如何保证一致性?原子性?持久性?数据库隔离级别并发事务会带来哪些问题数据库中的锁存储引擎为什么使用索引如何选取合适的索引四种索引类型 有哪些索引?有什么特点?B树索引方式的区别是什么?MySQL优化索引为什么使用B+树 不用hash表和B树?B-树 以及 B+树主键、超键、候选键、外键如何查询一条sql语句MySQL的内部构造Mysql 磁盘文件原创 2021-04-29 16:34:06 · 894 阅读 · 0 评论 -
超全面试汇总——计算机网络
计算机网络面试常考点TCP建立连接(三次握手)三次握手而不是两次:TCP断开连接(四次挥手)挥手为什么需要四次?为什么客户端最后还要等待2MSL?TCP四大拥塞控制算法总结?(极其重要)OSI 的七层模型分别是?各自的功能是什么?说一下一次完整的HTTP请求过程包括哪些内容?DNS及其原理TCP建立连接(三次握手)初始状态:客户端处于 closed(关闭)状态,服务器处于 listen(监听) 状态。第一次握手(SYN=1, seq=x): 客户端发送请求报文将 SYN = 1同步序列号和初始化序原创 2021-04-25 22:41:03 · 221 阅读 · 0 评论 -
HBase底层存储结构,HBase快速读取,hadoop的高可用和zk作用,网络模型,线程进程
HBase底层存储引擎Hbase为什么读取那么快Hbase使用场景zookeeper起什么作用的hadoop的HA(高可用)实现和zk的作用冷备份 secondary node工作原理:一个文件有上亿url,内存很小,找Top10OSI 的七层模型分别是?各自的功能是什么?说一下一次完整的HTTP请求过程包括哪些内容?DNS及其原理进程和线程的区别 和 使用场景一个进程可以创建多少线程,和什么有关?原创 2021-04-13 22:49:30 · 820 阅读 · 0 评论 -
Mysql 计算新登陆用户次日的留存率、每个日期登陆的新用户数、 每个日期新用户的次日留存率、用户连续登陆天数、连续登录5天的用户
计算新登陆用户次日的留存率、每个日期登陆的新用户数、 每个日期新用户的次日留存率1. 请你写出一个sql语句查询新登录用户次日成功的留存率,即第1天登陆之后,第2天再次登陆的概率,保存小数点后面3位(3位之后的四舍五入)2. 请你写出一个sql语句查询每个日期登录新用户个数,并且查询结果按照日期升序排序,3.请你写出一个sql语句查询每个日期新用户的次日留存率,结果保留小数点后面3位数(3位之后的四舍五入),并且查询结果按照日期升序排序1. 请你写出一个sql语句查询新登录用户次日成功的留存率,即第1天登原创 2021-03-12 14:57:46 · 2137 阅读 · 1 评论 -
操作系统 面试
操作系统死锁的四个必要条件ZooKeeper的角色Zookeeper的工作原理 Paxos帕克索斯进程和线程的区别 和 使用场景进程间通信的方式有什么?线程间通信的方式有什么?缓存和LRU算法死锁的四个必要条件互斥条件:一个资源每次只能被一个进程使用。占有且等待:一个进程因请求资源而阻塞时,对已获得的资源保持不放。不可强行占有:进程已获得的资源,在末使用完之前,不能强行剥夺。循环等待条件:若干进程之间形成一种头尾相接的循环ZooKeeper的角色它是一个分布式服务框架,用于维护配置信息,提原创 2021-03-11 23:56:50 · 216 阅读 · 0 评论 -
HDFS特点,底层结构,重要组成部分、安全模式,重要进程,高可靠性,冷备份,读写流程,通讯过程
谈谈什么是Hadoop?HDFS文件系统的特点底层文件结构 好处HDFS存储文件类型HDFS的组成,重要角色安全模式HDFS的几个进程HDFS的高可靠性HDFS的读写流程yarn执行流程启动集群时,我们要对namenode进行格式化操作?为什么只能格式化一次客户端和NameNode、DataNode通信过程原创 2021-03-09 21:46:13 · 796 阅读 · 0 评论 -
SQL转化为MapReduce的过程
SQL转化为MapReduce的过程MapReduce实现基本SQL操作的原理1. Join的实现原理2. Group By的实现原理3. Distinct的实现原理SQL转化为MapReduce的过程SparkSQL执行过程Hive的特征Hive 和关系型数据库的区别Hive的优势hive中 排序的种类和适用场景hive中split、coalesce及collect_list函数的用法(可举例)?如何交换两个数字,没有额外空间MapReduce实现基本SQL操作的原理Join/GroupBy/Orde原创 2021-03-08 23:16:33 · 2903 阅读 · 0 评论 -
Hive 结构描述 好处 常见的压缩方式 Hive优化 小文件问题及解决
Hive结构描述Hive的优势Hive的几种常见压缩方式列式存储的好处Hive函数Hive 优化1. 请慎重使用COUNT(DISTINCT col)2. 设置合理的map reduce的task数量3. Hive 小文件问题及解决4. 不要在表关联后面加WHERE条件5. 处理掉字段中带有空值的数据6. 聚合类group by操作,发生数据倾斜7. Reduce join 改为Map join8. 少用count(distinct),先用group 去重 再count子查询,采用原创 2021-03-07 23:44:27 · 366 阅读 · 0 评论 -
Hive 分区分桶 为什么分区分桶 怎么分区分桶
Hive 分区分桶为什么有分区怎么分区如何使用分区分区注意事项为什么要分桶?分桶的意义如何使用分桶分区分桶表为什么有分区随着系统运行时间增长,表的数据量越来越大,使用分区技术可以指定条件,缩小数据扫描的范围,避免hive全表扫描,提升查询效率可以将用户的整个表的数据 划分到多个子目录,怎么分区根据业务,通常按照年月日、地区等如何使用分区PARTITION BY(col_name data_type)hive的分区字段使用的是表外字段。而mysql使用的是表内字段。hive的分区名原创 2021-03-05 23:18:40 · 483 阅读 · 0 评论 -
什么是数据倾斜 数据倾斜的表现 发生数据倾斜的原因 如何解决数据倾斜
什么是数据倾斜数据倾斜的表现发生数据倾斜的原因如何解决数据倾斜原创 2021-03-04 21:48:33 · 10517 阅读 · 1 评论 -
数据仓库之建模 维度表 事实表 维度建模三种模式 如何维度建模缓慢变化的维度 建模体系
ER建模维度表和事实表维度建模三种模式如何维度建模什么是缓慢变化的维度最常见的三种数据仓库建模体系联机分析处理 OLAP元数据(Metadata)原创 2021-03-04 21:05:35 · 1314 阅读 · 1 评论 -
3.2 总结 数据仓库,分层设计,和数据库区别,Hive对比和调优
如何理解数仓为什么要设计数据分层通用的数据分层设计分层的原则是什么?为什么要这样分层?每层之间的界限又是什么?数据集市和数据仓库的区别数据库和数据仓库有什么区别?维度建模HDFS文件读写流程Hive和HBase的对比区别Hive内部表和外部表的区别?Hive分区表和分桶表的区别?Hive调优及优化原创 2021-03-02 21:20:24 · 769 阅读 · 0 评论 -
3.1面经总结 map reduce流程 shuffle流程 hive执行引擎 order by、group by、having、where
3.1总结MapReducemapreduce流程shuffle流程HiveHive中MR(map reduce)、Tez和Spark执行引擎对比Mysqlorder by 和 group by 的区别having 和where的用法区别当一个查询语句同时出现了where,group by,having,order by的时候,执行顺序和编写顺序是:MapReduceMapReduce是一种编程模型,用于大规模数据集,分为映射 和 归约 ,大数据量下优势明显,读写HDFS次数多mapreduce流原创 2021-03-01 21:13:36 · 1511 阅读 · 0 评论