大数据面试技术点

isMr_Sun

已于 2022-03-31 15:49:49 修改

阅读量1.3k

点赞数

分类专栏：学习积累文章标签：大数据

于 2022-03-31 15:44:33 首次发布

本文链接：https://blog.csdn.net/mr__sun__/article/details/123873816

版权

一、linux

tail -f F  区别

二、Hadoop：

读写流程、yarn、mapreduce【不会问的、shuffle】

三、Hdfs：

小文件如何解决
nn ha 
yarn ha

四、Hive：

1.sql 
2.调优：
	1.数据倾斜=》 
		join 
		group by 
	2.使用过哪些参数

五、 Flume：tail -f F 区别

1.架构设计 
2.业务场景 -
	 架构设计 
	 source：
	 	taildir 
	 sink：
	 	failover 、loadbanlance
3.如何解决 flume 延迟数据：
4.监控flume 
	ganglia =》 java web接口

六、kafka

1.架构设计
2. 数据查找 log文件 、index
isr、
3.给几个分区：
	1. 1 
	2. broker台数 个数

七、Spark：

1.sparksql 理解

2.spark on yarn ：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

isMr_Sun

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据面试技术点

大数据面试要点随手记录
复制链接

扫一扫

专栏目录

大数据面试技术点总结

korry24的博客

03-31

948

大数据面试题，hadoop，mysql，hive，spark，kafka，hbase，flink

大数据面试要点总结

静待花开

08-29

2417

首先是大牛的建议：我觉得面试是否成功主要取决是否能让面试官感觉到自己有项目经验，而体现项目经验呢，主要靠一些技术亮点，介绍项目时能说出一些技术亮点是很关键的，这些技术亮点应该是企业项目中的一个个解决方案，解决方案就是使用xx技术解决xx问题，比如使用threadlocal和拦截器解决分页参数的透明传输问题，使用shiro解决项目的认证和授权问题，类似这样的话语要尽量多说一些。如果在介绍项目时

参与评论您还未登录，请先登录后发表或查看评论

大数据面试技巧——个人总结（持续更新）

ll谢安生的博客

11-27

2526

说明：以下内容仅为个人观点，仅供参考。说期望薪资一定要说具体值，不要说区间。问题尽可能回答的详细一点。面试官问的一个问题，你回答的越细（比较问你shuffle流程你跟他说一个小时，甚至画张图出来），他后面越问的越少。一方面是因为你一个问题都能答的那么细，他就觉得你其它方面也还可以。另一方面，面试也有时间限制的，后面的人可能还在等着呢。于是可能你答完这个问题，他随便再问一两个问题基本就可...

大数据开发面试知识点总结

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

02-09

2万+

本文详细介绍大数据hadoop生态圈各部分知识，包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术，总结内容适合大数据开发者学习，希望能够和大家多多交流。

大数据面试题

热门推荐

知识的力量

09-12

6万+

Big Data 面试题总结 JAVA相关 1-1）List 与set 的区别？老掉牙的问题了，还在这里老生常谈：List特点：元素有放入顺序，元素可重复，Set特点：元素无放入顺序，元素不可重复。 1-2）数据库的三大范式？原子性、一致性、唯一性 1-3）java 的io类的图解 1-4）对象与引用对象的区别对象就是好没有初始化的对象，引用

大数据面试技术点总结(1).md

04-14

大数据面试技术点总结(1).md

04-大数据技术之高频面试题9.0.5.pdf

04-14

04_大数据技术之高频面试题9.0.5.pdf04_大数据技术之高频面试题9.0.5.pdf04_大数据技术之高频面试题9.0.5.pdf04_大数据技术之高频面试题9.0.5.pdf04_大数据技术之高频面试题9.0.5.pdf04_大数据技术之高频面试题9.0.5...

大数据技术面试宝典2024

07-07

Hadoop Hive Spark Kafka Hbase Flink ClickHouse Doris 数据仓库数据湖必备SQL题大厂面试中出现频率最高的SQL面试题 Linux Java 数据治理必备算法 大数据算法设计题

大数据技术高频面试题

10-03

在大数据领域，面试通常会涉及到多个关键的技术框架和概念，包括Hadoop、Spark、HBase和Hive等。这些技术是构建大规模数据处理和分析系统的核心组件。以下将详细介绍这些技术的一些重要知识点。 **Hadoop** 是一个...

大数据技术之高频面试题8.0.2.pdf

03-22

大数据技术之高频面试题8.0.2.pdf 以下是从给定文件中生成的相关知识点： Linux和Shell * Linux常用高级命令：包括文件管理、进程管理、磁盘管理、网络管理等命令。 * Shell常用工具及写过的脚本：包括sed、awk、...

企业搭建知识库：解锁无限潜力的钥匙

sheji888的专栏

07-05

563

在当今这个信息爆炸的时代，企业如何高效地管理、传播与利用知识，已成为衡量其竞争力的重要标尺。知识库，作为这一背景下的产物，正逐步成为企业不可或缺的数字资产。它不仅是一个自助式的数字门户，更是连接员工、客户与知识的桥梁，其重要性不容忽视。

流批一体计算引擎-13-[Flink]RuntimeExecutionMode和水印策略Watermark Strategy

qq_20466211的博客

07-04

370

flink中的水印策略

阶段三：项目开发---大数据系统基础环境准备：任务1：准备系统运行的先决条件

qq_60872637的博客

07-04

790

大数据基础环境准备SSH免密码连接安装配置JDK安装配置Scala无项目开发测试环境为分布式集群环境，在当前项目中使用多台基于CentOS 64bit 的虚拟机来模拟生产环境。

Memcached在大数据量下的挑战：性能瓶颈与优化策略

2401_85761762的博客

07-06

660

Memcached是一个基于内存的分布式缓存系统，它通过减少对数据库的访问次数来提高应用程序的性能。它支持简单的数据存储和检索操作，并且是许多高流量网站的核心技术。

分布式系统—ELK日志分析系统概述及部署

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交