大数据面试题
文章平均质量分 56
大数据-刘耀文
这个作者很懒,什么都没留下…
展开
-
大数据Hadoop面试题整理
2018.10.221.抽象类与接口的区别?1.语法层面上的区别 1)抽象类可以提供成员方法的实现细节,而接口中只能存在public abstract 方法; 2)抽象类中的成员变量可以是各种类型的,而接口中的成员变量只能是public static final类型的; 3)接口中不能含有静态代码块以及静态方法,而抽象类可以有静态代码块和静态方法; 4)一个类只能继承一个抽象类...原创 2018-10-25 11:58:12 · 2647 阅读 · 0 评论 -
大数据面试真题整理
蚂蚁金服面试题小文件的合并MR与Spark的区别关注哪些名人的博客对大数据领域有什么自己的见解平常怎么学习大数据的StringBuilder与StringBuffer的区别HashMap与Hashtable的区别谈谈你对数的理解数据库索引的实现jvm的内存模型jvm的垃圾收集器jvm的垃圾收集算法HDFS架构HDFS读写流程Hadoop3.0做了哪些改进谈谈YAR...原创 2018-11-21 17:53:28 · 1700 阅读 · 1 评论 -
大数据面试技巧——个人总结(持续更新)
说明:以下内容仅为个人观点,仅供参考。说期望薪资一定要说具体值,不要说区间。问题尽可能回答的详细一点。面试官问的一个问题,你回答的越细(比较问你shuffle流程你跟他说一个小时,甚至画张图出来),他后面越问的越少。 一方面是因为你一个问题都能答的那么细,他就觉得你其它方面也还可以。另一方面,面试也有时间限制的,后面的人可能还在等着呢。于是可能你答完这个问题,他随便再问一两个问题基本就可...原创 2018-11-27 13:26:10 · 2526 阅读 · 0 评论 -
大数据面试题——场景题
有如下场景:某公司网站每日访问量达到10亿级别的访问量,每次访问记录一条数据,数据包含如下字段:用户ID,访问时间(毫秒级),访问页面。要求使用hive求出所有在5分钟内访问次数达到100次的用户(求出用户ID即可)思路:利用窗口函数Lag详细思路:1.选出当天访问次数达到100次的用户(即当天有100及以上条数据的用户):根据用户ID分组,count2.在每个 用户ID小组内(步骤1...原创 2018-12-26 22:30:26 · 2427 阅读 · 1 评论 -
Kafka常见问题
kafka常见问题目录:1、如果想消费已经被消费过的数据2、如何自定义去消费已经消费过的数据3、kafka partition和consumer数目关系4、kafka topic 副本问题5、kafka如何设置生存周期与清理数据6、zookeeper如何管理kafka7、SparkStreaming之Kafka的Receiver和Direct方式讲解1、如果想消费已经被消费过的数...原创 2019-02-23 11:54:55 · 456 阅读 · 0 评论 -
streaming消费kafka的两种方式Receiver/Direct优缺点
streaming消费kafka的两种方式的优缺点的总结Receiver方式:Receiver从Kafka中获取数据都是存储在Spark Executor内存中的,然后Spark Streaming启动的job会去处理那些数据。优点:操作简单方便,不用自己管理offset。缺点:各方面都不如Direct方式。Direct方式:它会周期性的查询kafka,来获取每个topic + par...原创 2019-02-23 16:18:11 · 1464 阅读 · 0 评论 -
ElasticSearch优化
目录:1.ElasticSearch生产集群配置优化2.Spark整合Elasticsearch优化ElasticSearch生产集群配置优化集群主机(节点)配置相近集群中主机最好配置相近,集群的性能符合木桶定律,即集群的查询性能是由集群中性能最差的主机决定的。建议使用SSD硬盘替换传统的机械硬盘ES对IO的性能要求比较高。ES内存配置不要超过32G指定的堆内存可以是节点总内存的...原创 2019-02-23 19:53:46 · 1252 阅读 · 0 评论