2024年大数据学习总结,面试高频题目

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

快速:相比面向磁盘的MapReduce,Spark能够更高效地处理迭代计算、实时计算和交互式数据查询等需求。因为它能够将数据存储在内存中并基于内存进行计算,这使得Spark能够在多个不同数据源的数据提供近乎实时的处理性能,适用于需要多次操作特定数据集的应用场景。
简洁易用:Spark提供了丰富的API接口,可以使用Java、Python、Scala等语言编写程序,并且支持SQL查询、流处理、机器学习等多种功能。
通用性:Spark不仅可以处理结构化数据,还可以处理半结构化数据、非结构化数据和图形数据等复杂数据类型。
支持多种运行模式:Spark可以在本地模式、独立模式、YARN模式和Mesos模式等多种环境下运行,具有很高的灵活性。

处理方式:Spark是基于内存的计算框架,而MapReduce则是基于磁盘的。在MapReduce中,中间结果被保存到磁盘中,这减少了内存占用,但也牺牲了计算性能1。相比之下,Spark将计算的中间结果保存在内存中,可以反复利用,从而提高了处理数据的性能。
处理速度:Spark使用DAG(有向无环图)来构建任务执行计划,这样可以减少shuffle操作和数据落地磁盘的次数。一般来说,与MapReduce相比,DAG模型可以减少大多数情况下的shuffle次数。如果计算过程不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,从而减少磁盘IO操作。
资源申请方式:Spark采用粗粒度的资源申请方式,而MapReduce则是细粒度的。这意味着Spark可以更好地利用集群资源,并减少调度开销。
适用场景:由于Spark支持将需要反复使用的数据缓存到内存中,因此它更适合运行机器学习等需要对数据进行反复迭代的算法。

总的来说,虽然Spark和MapReduce都可以处理大规模数据,但Spark通常会更快、更灵活,并且适用于更广泛的工作负载。

冷备,温备,热备

冷备是指两个服务器,一台运行,一台不运行做备份

热备是一种系统运行模式,主要用于提高系统的可用性和容错能力。在这个模式下,与目标设备共同运转的设备被称为热备设备。当目标设备发生故障或停机时,热备设备立即承担起故障设备的工作任务,确保服务不会中断

温备是一种数据库备份方式,它指的是在数据库运行过程中进行的备份。与冷备相比,温备不需要停止MySQL服务器,因此对系统的影响较小1。但温备会对当前数据库的操作有所影响,例如可能需要加一个全局读锁以保证备份数据的一致性。

数据类型

结构化数据:这种数据以表格、行和列的形式组织,通常存储在关系型数据库中。例如,数据库中的表格、电子表格中的数据或日志文件中的数据。
半结构化数据:这种数据没有明确定义的模式,但它包含了标记或标签,使得数据可以被更容易地解释和处理。例如,XML、JSON和HTML文件通常属于半结构化数据。
非结构化数据:这种数据没有明确结构或组织,通常以文本、图像、音频和视频的形式存在。社交媒体帖子、电子邮件、照片和视频文件都是非结构化数据的例子。
时序数据:这种数据按照时间顺序记录,通常包括时间戳。传感器数据、日志数据、股票市场数据和气象数据等领域常见这种类型的数据。
空间数据:这种数据包括与地理位置相关的信息,通常使用地理坐标系统(如经度和纬度)来表示。在地理信息系统(GIS)应用中广泛使用,用于地图制图、位置分析和导航。
图数据:这种数据以节点和边的形式组织,用于表示实体之间的关系。社交网络、知识图谱和互联网上的网页链接都可以看作是图数据。

Linux基础操作命令

显示当前目录 pwd

显示指定目录的文件 ls

切换工作目录 cd(路径)

创建目录mkdir

删除文件或目录 rm (文件)

复制目录或文件 cp 〈目录〉/〈文件〉

移动文件或改名mv〈文件〉/〈目标文件〉

查看文件内容 cat〈文件〉

为文件和目录创建档案 tar〈档案名〉〈文件或目录〉

创建用户useradd 〈用户名〉(只能在root中使用)

改用户密码passwd〈用户名〉

改文件或目录的用户组chown〈用户名〉〈文件〉

改文件或目录权限chmod〈-R〉〈文件〉

切换用户su〈用户名〉

编辑文本vi〈文件名〉进入输入模式a保存并退出x

强制退出!q

清屏clear

改主机名hostname〈主机名〉

查看网卡ip a

重启reboot

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

需要这份系统化资料的朋友,可以戳这里获取

  • 24
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
尚硅谷大数据技术之高频面试题8.0.9.docx是一份大数据技术的面试题集合。这份文档包含了大数据领域的高频面试题,对于准备面试或者想要了解大数据技术的人来说是一份非常有价值的资料。 文档中的问题涵盖了大数据的各个方面,包括Hadoop、Spark、Hive、HBase、Flume、Kafka等大数据技术工具和框架。这些问题不仅考察了对这些技术的基本概念和原理的理解,还包括实际应用和常见问题的解决方法。 例如,文档中可能包含有关如何配置和使用Hadoop集群,如何在Spark中使用RDD和DataFrame进行数据处理,如何在Hive中执行SQL查询,如何在HBase中创建和管理表,如何使用Flume和Kafka进行数据采集和流处理等问题。 大数据技术的发展和应用已成为当今互联网和信息技术领域的热点,对于从业人员来说,具备相关技术的知识和能力将有助于在竞争激烈的市场中脱颖而出。而这份面试题文档则是一个很好的参考资料,可以帮助人们系统性地学习和掌握大数据技术,增加应对实际面试的成功几率。 总而言之,尚硅谷大数据技术之高频面试题8.0.9.docx是一份非常有价值的大数据技术面试题集合,将大大提升读者的面试准备能力和对大数据技术的了解。通过仔细阅读和思考这份文档中的问题,读者将能够更好地应对面试,并在大数据领域有更好的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值