面试
sun_0128
这个作者很懒,什么都没留下…
展开
-
大数据常见面试题之Java基础
一.HashMapjdk7:数组+链表jdk8:数组+链表+红黑树HashMap中维护了Node类型的数组table,初始为null1.创建对象时,将加载因子loadFactor初始化为0.75,其他成员保持默认值2. 添加元素时,相当于putVal方法,需要先将元素的key哈希值取出来,并且运算得出在数组中存放索引如果该索引出没有其他元素,则直接存放若该索引处有其他元素,需要先判断是否相等,若相等则覆盖,若不相等则继续判断是否为树结构或链表结构,根据不同结构进行不同处理3.如果需要扩容,则原创 2020-07-28 09:41:36 · 630 阅读 · 1 评论 -
大数据常见面试题之Java多线程
1原创 2020-07-29 08:45:07 · 226 阅读 · 0 评论 -
大数据常见面试题之JVM
一.请说明一下Java虚拟机地作用是是什么解释运行字节码程序消除平台相关性JVM将Java字节码解释为具体平台地具体指令.一般地高级语言如果在不同地平台上运行,至少需要编译成不同地目标代码.而引进JVM之后,Java语言在不同地平台上运行时不需要重新编译.Java语言使用模式Java虚拟机屏蔽了与具体平台相关地信息,使得Java语言编译程序只需生成在Java虚拟机上运行地目标代码(字节码),就可以在多平台上不加修改地运行.Java虚拟机在执行字节码时,把字节码解释成具体平台上地机器指令执行二.Java原创 2020-07-31 08:20:32 · 422 阅读 · 0 评论 -
大数据常见面试题之hdfs
一hdfs.写数据流程1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2.NameNode返回是否可以上传。不能上传会返回异常。3.确定可以上传,客户端请求第一个block上传到哪几个datanode服务器上。4.NameNode返回3个datanode节点,假定分别为dn1,dn2,dn3。5.客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn原创 2020-09-13 10:52:21 · 1537 阅读 · 0 评论 -
大数据常见面试题之MapReduce
文章目录一.MapReduce的执行流程二.MapReduce写过吗?有哪些关键类?mapper的方法有哪些?setup方法是干嘛的?它是每读一行数据就调用一次这个方法吗?1.关键类2.mapper的方法有setup,map,cleanup,run三.有个需求,要求一条指令可以把所有文件都shuffle到同一partition中,用MapReduce的话,你怎么写?四.Hadoop Shuffle原理(越详细越好)?五.combine函数的作用?六.简列几条MapReduce的调优方法1.数据输入2.Map原创 2020-09-13 18:03:45 · 1867 阅读 · 0 评论 -
大数据常见面试题之hive
文章目录一.描述一下Hive动态分区和分桶使用场景和使用方法1.分区2.分桶二.Hive是怎么集成HBase三.Hive join查询的时候on和where有什么区别四.Hive里面的left join是怎么执行的?五.Hive内部表,外部表,分区表六.Hive和mysql有什么区别,大数据为什么不用MySQL做存储和数据处理?七.Hive如何调优八.Hive数据倾斜原因和处理?九.Hive的自定义函数实现了什么接口什么方法?十.使用Hive-sql如何查询A表中B表不存在的数据?十一.如何控制Hive中M原创 2020-09-13 19:50:38 · 974 阅读 · 0 评论 -
大数据常见面试题之HBase
一.为什么使用HBase存储HBase(Hadoop Database) 是一个靠可靠性,高性能,可伸缩,面向列的分布式数据库HBase与Hadoop的关系非常紧密,Hadoop的hdfs提供了高可靠性的底层存储支持,Hadoop MapReduce 为 HBase提供了高性能的计算能力,zookeeper为Hbase提供了稳定性及failover机制的保障. 同时其他周边产品诸如Hive可以与HBase相结合使在HBase进行数据统计处理变得简单,Sqoop为HBase提供了方便的RDBMS数据导入原创 2020-09-13 11:40:04 · 598 阅读 · 0 评论 -
大数据常见面试题之数据仓库
一.数仓中是如何划分主题的主题(subject)是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域.在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象.例如销售分析就是一个分析领域,因此这个数据仓库应用的主题就是销售分析主题是根据分析的要求来确定的.这与按照数据处理或应用的要求来组织数据是不同的.如在生产企业中,同样是材料供应,在操作型数据库系统中,人们所关心的是怎样更方便和更快捷的进行材料供应的业务处理,而在进行分析处理时,人们原创 2020-08-03 10:40:15 · 5535 阅读 · 2 评论 -
大数据常见面试题之scala
文章目录1.偏函数2.函数柯里化3.scala的apply和unapply方法的作用4.元组5.scala优点6.scala中关键字implicit用法7.特质与抽象类的区别8.闭包9.Unit10.ArrayBuffer和Array区别11.Java和Scala的区别1.偏函数偏函数(Partial Function)是数学概念,它不是函数的一种,它跟函数是平行的概念.scala中的偏函数是一个Trait,类型为PartialFunction[A,B],其中接收一个类型为A的参数,返回一个类型为B原创 2020-07-31 09:30:07 · 630 阅读 · 0 评论 -
大数据常见面试题之spark core
文章目录一.spark的部署模式1.本地模式2.standalone模式3.spark on yarn模式二.driver的功能三.hadoop和spark都是并行计算,他们有什么相同点和不同点一.spark的部署模式1.本地模式spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定.将spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分为三类1)local:只启动一个executor2)local[k]:启动k个executor3)local[*原创 2020-08-07 10:49:13 · 526 阅读 · 0 评论 -
大数据常见面试题之spark sql
一.创建DataSet的几种方式原创 2020-08-11 13:50:49 · 2419 阅读 · 0 评论 -
大数据常见面试题之Spark Streaming
一.SparkStreaming有哪几种方式消费kafka中的数据,他们之间的区别是什么?1.基于Receiver的方式这种方式使用Receiver来获取数据.Receiver是使用kafka的高层次Consumer API来实现的.reveiver从kafka中获取的数据都是存储在spark executor的内存中的(如果突然数据暴增,大量batch堆积,很容易出现内存溢出的问题),然后spark streaming启动的job会去处理哪些数据然而,在默认的配置下,这种方式可能会因为底层的失败而原创 2020-08-13 20:03:23 · 2234 阅读 · 0 评论 -
大数据常见面试题之flume
一.flume组成和事务flume组成为source channel sink 事务包含put事务 take事务常用的source channeltaildir source: 断点续传,多目录. flume1.6以前需要自己自定义source记录每次读取文件位置,实现断点续传file channel: 数据存储在磁盘,宕机数据可以保存.但是传输速率慢.适合对数据传输可靠性要求高的场景,比如金融行业memory channel: 数据存储在内存中,宕机数据丢失.传输速率快.适合对数据传输可靠性原创 2020-08-18 08:48:04 · 371 阅读 · 0 评论 -
大数据常见面试题之kafka
1原创 2020-08-21 17:06:13 · 742 阅读 · 0 评论 -
大数据常见面试之算法
文章目录一.海量数据处理1.给一个超过100G大小log file ,log中存着IP地址,设计算法找到出现次数最多的IP地址2.与上题条件相同,如何找到top k的IP?3.给定100亿个整数,设计算法找到只出现一次的整数4.给两个文件,分别由100亿个query,我们只有1G内存,如何找到两个文件交集分别给出精确算法和近似算法5.如何扩展BloomFilter使得它支持删除元素的操作?6.给上千个文件,每个文件大小为1K-100M,给n个词,设计算法对每个词找到包含他的文件,只有100K内存7.有一个词原创 2020-09-14 14:43:25 · 1029 阅读 · 0 评论