大数据学习总结，2024年最新直面春招

最新推荐文章于 2024-11-03 00:00:00 发布

2401_84181286

最新推荐文章于 2024-11-03 00:00:00 发布

阅读量495

点赞数 10

分类专栏： 2024年程序员学习文章标签：大数据学习

本文链接：https://blog.csdn.net/2401_84181286/article/details/137794037

版权

2024年程序员学习专栏收录该内容

62 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

资源申请方式：Spark采用粗粒度的资源申请方式，而MapReduce则是细粒度的。这意味着Spark可以更好地利用集群资源，并减少调度开销。
适用场景：由于Spark支持将需要反复使用的数据缓存到内存中，因此它更适合运行机器学习等需要对数据进行反复迭代的算法。

总的来说，虽然Spark和MapReduce都可以处理大规模数据，但Spark通常会更快、更灵活，并且适用于更广泛的工作负载。

冷备，温备，热备

冷备是指两个服务器，一台运行，一台不运行做备份

热备是一种系统运行模式，主要用于提高系统的可用性和容错能力。在这个模式下，与目标设备共同运转的设备被称为热备设备。当目标设备发生故障或停机时，热备设备立即承担起故障设备的工作任务，确保服务不会中断

温备是一种数据库备份方式，它指的是在数据库运行过程中进行的备份。与冷备相比，温备不需要停止MySQL服务器，因此对系统的影响较小1。但温备会对当前数据库的操作有所影响，例如可能需要加一个全局读锁以保证备份数据的一致性。

数据类型

结构化数据：这种数据以表格、行和列的形式组织，通常存储在关系型数据库中。例如，数据库中的表格、电子表格中的数据或日志文件中的数据。
半结构化数据：这种数据没有明确定义的模式，但它包含了标记或标签，使得数据可以被更容易地解释和处理。例如，XML、JSON和HTML文件通常属于半结构化数据。
非结构化数据：这种数据没有明确结构或组织，通常以文本、图像、音频和视频的形式存在。社交媒体帖子、电子邮件、照片和视频文件都是非结构化数据的例子。
时序数据：这种数据按照时间顺序记录，通常包括时间戳。传感器数据、日志数据、股票市场数据和气象数据等领域常见这种类型的数据。
空间数据：这种数据包括与地理位置相关的信息，通常使用地理坐标系统（如经度和纬度）来表示。在地理信息系统(GIS)应用中广泛使用，用于地图制图、位置分析和导航。
图数据：这种数据以节点和边的形式组织，用于表示实体之间的关系。社交网络、知识图谱和互联网上的网页链接都可以看作是图数据。