我嘞个spark骚缸啊(1),2024年最新不看绝对血亏

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
img

正文

7,pig(基于hadoop的数据流系统)

定义了一种数据流语言-pig latin,将脚本转换为mapreduce任务在hadoop上执行。

通常用于离线分析。

8,mahout(数据挖掘算法库)

mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。mahout现在已经包含了聚类,分类,推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法是,mahout还包含了数据的输入/输出工具,与其他存储系统(如数据库,mongoDB或Cassandra)集成等数据挖掘支持架构。

9,flume(日志收集工具)

cloudera开源的日志收集系统,具有分布式,高可靠,高容错,易于定制和扩展的特点。他将数据从产生,传输,处理并写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在flume中定制数据发送方,从而支持收集各种不同协议数据。

a1947d2e882f4c85b96ad3f82327a389.png

二、mapreduce概述

MapReduce是一个分布式运算程序的编程框架,其核心功能为把用户编写的业务逻辑代码自带默认组件整合成一个完整的分布式运算程序并发运行Hadoop集群

MapReduce是一种编程模型和处理框架,主要用于处理大规模数据集的并行计算。

MapReduce编程模型包括两个主要阶段:Map阶段和Reduce阶段。在Map阶段,输入数据集被划分成若干个小数据块,每个小数据块由一个Map任务处理,Map任务将输入数据进行映射,并生成中间键值对。这些中间键值对按照键进行排序,并传递给Reduce任务。

在Reduce阶段,Reduce任务从Map阶段输出的中间数据中获取与特定键关联的所有值,然后对这些值进行汇总处理。最终,Reduce任务输出最终的结果数据。

MapReduce框架负责管理整个计算过程,包括任务的调度、错误处理、数据传输等。通过MapReduce,用户可以在分布式计算集群上高效地执行大规模数据处理任务,实现横向扩展和并行化处理,从而提高计算速度和效率。

三、spark技术特点和概述

Spark是一种快速、通用的分布式计算引擎,具有以下技术特点和概述:

  1. 快速性能:Spark使用内存计算和弹性分布式数据集(RDD)模型,在内存中执行计算,并通过高度优化的调度器实现高速数据处理。这种机制使得Spark比传统的基于磁盘的批处理框架更加快速,适用于迭代式算法和交互式数据分析等工作负载。

  2. 多语言支持:Spark提供对多种编程语言的支持,包括Scala、Java、Python和R等。这使得开发人员可以使用自己喜欢的语言进行Spark应用程序的开发,提高了开发的灵活性和效率。

  3. 分布式数据集(RDD):RDD是Spark的核心抽象,代表着分布式计算过程中的弹性、可分区、可并行操作的数据集合。RDD可以容错地在集群中的多个节点上进行并行处理,提供了丰富的数据转换和操作操作,如map、filter、reduce等。RDD还支持用户自定义的持久化策略,允许数据被缓存在内存中,进一步提高计算性能。

  4. 扩展性和集成性:Spark具有良好的可扩展性,可以轻松地运行在大规模的分布式集群上。此外,Spark还提供了与其他常用数据存储和处理系统(如Hadoop、Hive、HBase等)的集成接口,方便用户在现有基础设施上构建和扩展Spark应用程序。

  5. 流数据处理支持:除了批处理,Spark还提供了对流式处理的支持,称为Spark Streaming。Spark Streaming可以以微批处理的形式处理实时数据流,使得用户能够对连续数据流进行高效的实时计算和分析。

综上所述,Spark通过其快速性能、多语言支持、弹性分布式数据集(RDD)、可扩展性和与其他系统的集成性等特点,成为了大规模数据处理和分析的流行选择,在各个领域都有广泛的应用。

四、mapreduce和spark的区别

spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的。

Mapreduce是将中间结果保存到磁盘中,减少了内存占用,牺牲了计算性能。

Spark是将计算的中间结果保存到内存中,可以反复利用,提高了处理数据的性能。

027a18da48624e6bb2c6272e0a4c02d3.png

五、结构化数据与非结构化数据是什么?

什么是结构化数据

大多数人都熟悉结构化数据的工作原理。结构化数据,可以从名称中看出,是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。它可能不是人们最容易找到的数据类型,但与非结构化数据相比,无疑是两者中人们更容易使用的数据类型。另一方面,计算机可以轻松地搜索它。

结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便,不过在商业上的可挖掘价值方面就比较差。

典型的结构化数据包括:信用卡号码、日期、财务金额、电话号码、地址、产品名称等

什么是非结构化数据

非结构化数据本质上是结构化数据之外的一切数据。它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NoSQL进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。简单的说,非结构化数据就是字段可变的的数据。

非结构化数据不是那么容易组织或格式化的。收集,处理和分析非结构化数据也是一项重大挑战。这产生了一些问题,因为非结构化数据构成了网络上绝大多数可用数据,并且它每年都在增长。随着更多信息在网络上可用,并且大部分信息都是非结构化的,找到使用它的方法已成为许多企业的重要战略。更传统的数据分析工具和方法还不足以完成工作。

六、Linux简单操作命令实训练习

useradd命令

d3ab3decbce64391932110008fe58898.png

96b99e1abba64e83b529c192d1f8ddc1.png

passwd命令

3cd21260def2436fa02c9f5c401434f7.png

2a692ad5046e4e48ace7263fa0ce6d55.png

chown命令

09078eef1e604416a44ddc3a52e168f3.png

7803ae848f644b62acb38ff32be119a6.png

chmod命令

6815e503a39d4057b2ddcace806253a9.png

2565be6ff26446929ab74e8de528a6bf.png

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

加V获取:vip204888 (备注大数据)**
[外链图片转存中…(img-x9HxUVwI-1713404856743)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值