大数据笔记

柳朝明

已于 2023-07-24 21:44:28 修改

阅读量69

点赞数

文章标签：大数据笔记

于 2023-07-23 12:46:07 首次发布

本文链接：https://blog.csdn.net/RSNJZ/article/details/131862256

版权

数据分析

数据分析的步骤：

明确分析目的和思路
数据收集：数据从无到有，数据传输搬运
数据预处理：数据清洗，数据转化，数据提取，数据计算。让数据成为干净规整的结构化数据
数据分析
数据展现：又称之为数据可视化。
报告撰写。

数据开发

Spark

Spark是一个开源的大数据处理框架，具有高效的内存计算和分布式计算能力，可以处理大规模的数据集。Spark特点包括：
高速计算：Spark采用内存计算，速度比Hadoop MapReduce快10倍以上。
多语言支持：Spark支持Java、Scala、Python等多种编程语言。
多种计算模式：Spark支持批处理、交互式查询、流处理等多种计算模式。
易于使用：Spark提供了简单易用的API，可以快速开发和调试应用程序。

使用的编程语言

Spark 同时支持Scala、Python、Java 三种应用程序API编程接口和编程方式，考虑到大数据处理的特性，一般会优先使用Scala进行编程，其次是Python，最后才是Java。无论使用Scala、Python还是Java编程程序都需要遵循Spark 编程模型，考虑对Spark平台支持的有力程度来说，Spark 对Scala语言的支持是最好的，因为它有最丰富的和最易用的编程接口。

Spark如何学习

学习Spark可以按照以下步骤进行：

学习Scala或Java：Spark的主要编程语言是Scala，也支持Java和Python。如果你已经熟悉Scala或Java，可以直接开始学习Spark。如果不熟悉，需要先学习Scala或Java的基础知识。

学习Spark基础知识：学习Spark的基础知识，包括RDD、DataFrame、Dataset、Spark SQL等概念和API。可以通过官方文档、书籍、在线课程等方式进行学习。

学习Spark编程模型：学习Spark的编程模型，包括转换操作、行动操作、Shuffle等概念和原理。可以通过官方文档、书籍、在线课程等方式进行学习。

学习Spark应用开发：学习如何使用Spark进行应用开发，包括数据处理、机器学习、图计算等方面。可以通过官方文档、书籍、在线课程等方式进行学习。

实践练习：通过实践练习来巩固和深化所学知识，可以使用官方提供的示例代码、开源项目、自己的数据集等进行实践。

参与社区：参与Spark社区，了解最新的技术发展和应用案例，与其他开发者交流经验和技术，提高自己的技术水平。

原文链接：https://blog.csdn.net/qq_42337039/article/details/130698250

flink

spark vs flink

在 Spark 生态体系中，对于批处理和流处理采用了不同的技术框架，批处理由 SparkSQL 实现，流处理由 Spark Streaming 实现，这也是大部分框架采用的策略，使用独立的处理器实现批处理和流处理，而 Flink 可以同时实现批处理和流处理。
Flink 是如何同时实现批处理与流处理的呢？答案是，Flink 将批处理（即处理有限的静态数据）视作一种特殊的流处理。

hadoop

用java语言实现，开源。
允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。
hadoop核心组件
hadoop hdfs（分布式文件存储系统）：解决海量数据存储。
hadoop yarn（集群资源管理和任务调度框架）：解决资源任务调度。
hadoop mapreduce（分布式计算框架）：解决海量数据计算。

hadoop集群 = hdfs集群 + yarn集群
两个集群逻辑上分离，通常物理上在一起。逻辑上分离指两个互相没有依赖，互不影响。物理上在一起指的是某些角色进程往往部署在同一台物理服务器上。
两个集群都是标准的主从架构集群。
有没有mapreduce集群？
没有，mapreduce是计算框架，代码层面的组件，就是一个程序。没有集群之说。