大数据简介「什么事大数据」

最新推荐文章于 2024-01-04 00:12:43 发布

老猫饿了

最新推荐文章于 2024-01-04 00:12:43 发布

阅读量154

点赞数

分类专栏：大数据 Linux 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013603364/article/details/124170084

版权

Linux 同时被 2 个专栏收录

11 篇文章

订阅专栏

5 篇文章

订阅专栏

语言基础

Java
大数据框架大多采用 Java 语言进行开发，并且几乎全部的框架都会提供 Java API 。Java 是目前比较主流的后台开发语言，目前大多数框架要求 Java 版本至少是 1.8，这是由于 Java 1.8 提供了函数式编程，使得可以用更精简的代码来实现之前同样的功能。
Scala
Scala 是一门综合了面向对象和函数式编程概念的静态类型的编程语言，它运行在 Java 虚拟机上，可以与所有的 Java 类库无缝协作，著名的 Kafka 就是采用 Scala 语言进行开发的。
为什么需要学习 Scala 语言？这是因为当前最火的计算框架 Flink 和 Spark 都提供了 Scala 语言的接口，使用它进行开发，比使用 Java 8 所需要的代码更少，且 Spark 就是使用 Scala 语言进行编写的，学习 Scala 可以帮助你更深入的理解 Spark。

Linux 基础

通常大数据框架都部署在 Linux 服务器上，所以需要具备一定的 Linux 知识。Linux 书籍当中比较著名的是《鸟哥私房菜》系列，这个系列很全面也很经典。

构建工具

这里需要掌握的自动化构建工具主要是 Maven。Maven 在大数据场景中使用比较普遍，主要在以下三个方面：
管理项目 JAR 包，帮助你快速构建大数据应用程序；
不论你的项目是使用 Java 语言还是 Scala 语言进行开发，提交到集群环境运行时，都需要使用 Maven 进行编译打包；
大部分大数据框架使用 Maven 进行源码管理，当你需要从其源码编译出安装包时，就需要使用到 Maven。

框架学习

框架分类
上面我们介绍了很多大数据框架，这里进行一下分类总结：
日志收集框架：Flume 、Logstash、Kibana
分布式文件存储系统：Hadoop HDFS
数据库系统：Mongodb、HBase
分布式计算框架：
批处理框架：Hadoop MapReduce
流处理框架：Storm
混合处理框架：Spark、Flink
查询分析框架：Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix
集群资源管理器：Hadoop YARN
分布式协调服务：Zookeeper
数据迁移工具：Sqoop
任务调度框架：Azkaban、Oozie
集群部署和监控：Ambari、Cloudera Manager
上面列出的都是比较主流的大数据框架，社区都很活跃，学习资源也比较丰富。建议从 Hadoop 开始入门学习，因为它是整个大数据生态圈的基石，其它框架都直接或者间接依赖于 Hadoop 。接着就可以学习计算框架，Spark 和 Flink 都是比较主流的混合处理框架，Spark 出现得较早，所以其应用也比较广泛。 Flink 是当下最火热的新一代的混合处理框架，其凭借众多优异的特性得到了众多公司的青睐。两者可以按照你个人喜好或者实际工作需要进行学习。

至于其它框架，在学习上并没有特定的先后顺序，如果你的学习时间有限，建议初次学习时候，同一类型的框架掌握一种即可，比如日志收集框架就有很多种，初次学习时候只需要掌握一种，能够完成日志收集的任务即可，之后工作上有需要可以再进行针对性地学习。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。