先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7
深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
正文
资源申请方式:Spark采用粗粒度的资源申请方式,而MapReduce则是细粒度的。这意味着Spark可以更好地利用集群资源,并减少调度开销。
适用场景:由于Spark支持将需要反复使用的数据缓存到内存中,因此它更适合运行机器学习等需要对数据进行反复迭代的算法。
总的来说,虽然Spark和MapReduce都可以处理大规模数据,但Spark通常会更快、更灵活,并且适用于更广泛的工作负载。
冷备,温备,热备
冷备是指两个服务器,一台运行,一台不运行做备份
热备是一种系统运行模式,主要用于提高系统的可用性和容错能力。在这个模式下,与目标设备共同运转的设备被称为热备设备。当目标设备发生故障或停机时,热备设备立即承担起故障设备的工作任务,确保服务不会中断
温备是一种数据库备份方式,它指的是在数据库运行过程中进行的备份。与冷备相比,温备不需要停止MySQL服务器,因此对系统的影响较小1。但温备会对当前数据库的操作有所影响,例如可能需要加一个全局读锁以保证备份数据的一致性。
数据类型
结构化数据:这种数据以表格、行和列的形式组织,通常存储在关系型数据库中。例如,数据库中的表格、电子表格中的数据或日志文件中的数据。
半结构化数据:这种数据没有明确定义的模式,但它包含了标记或标签,使得数据可以被更容易地解释和处理。例如,XML、JSON和HTML文件通常属于半结构化数据。
非结构化数据:这种数据没有明确结构或组织,通常以文本、图像、音频和视频的形式存在。社交媒体帖子、电子邮件、照片和视频文件都是非结构化数据的例子。
时序数据:这种数据按照时间顺序记录,通常包括时间戳。传感器数据、日志数据、股票市场数据和气象数据等领域常见这种类型的数据。
空间数据:这种数据包括与地理位置相关的信息,通常使用地理坐标系统(如经度和纬度)来表示。在地理信息系统(GIS)应用中广泛使用,用于地图制图、位置分析和导航。
图数据:这种数据以节点和边的形式组织,用于表示实体之间的关系。社交网络、知识图谱和互联网上的网页链接都可以看作是图数据。
Linux基础操作命令
显示当前目录 pwd
显示指定目录的文件 ls
切换工作目录 cd(路径)
创建目录mkdir
删除文件或目录 rm (文件)
复制目录或文件 cp 〈目录〉/〈文件〉
移动文件或改名mv〈文件〉/〈目标文件〉
查看文件内容 cat〈文件〉
为文件和目录创建档案 tar〈档案名〉〈文件或目录〉
创建用户useradd 〈用户名〉(只能在root中使用)
改用户密码passwd〈用户名〉
改文件或目录的用户组chown〈用户名〉〈文件〉
改文件或目录权限chmod〈-R〉〈文件〉
切换用户su〈用户名〉
编辑文本vi〈文件名〉进入输入模式a保存并退出x
强制退出!q
清屏clear
改主机名hostname〈主机名〉
查看网卡ip a
重启reboot
关机poweroff
输出字符串echo"内容"
重新执行修改的文件source〈文件〉
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
NMV3SB8-1713183554448)]
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!