第一章2021.2.27

最新推荐文章于 2023-04-09 01:52:52 发布

m0_47794348

最新推荐文章于 2023-04-09 01:52:52 发布

阅读量97

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_47794348/article/details/114250635

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

大数据关键技术：

数据采集：更多的对数据进行清洗，对有用的数据进行提炼，并进行实时处理分析

数据存储和管理：更多的是和sql数据库挂钩，对数据进行存储与管理

数据处理与分析：对数据进行挖掘，并进行可视化处理，帮助人们更好的去分析数据

数据隐私与安全：保护用户的隐私和数据的安全

Spark简介

spark是当前热门的大数据处理技术，spark采用Scala、java、python和R语言来变成

Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab，2013 年被捐赠给 Apache 软件基金会，2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算，Spark 可以带来上百倍的性能提升，因此它成为继 MapReduce 之后，最为广泛使用的分布式计算框架。

Spark 基于 Spark Core 扩展了四个核心组件

Spark SQL
Spark SQL 主要用于结构化数据的处理。其具有以下特点：

能够将 SQL 查询与 Spark 程序无缝混合，允许您使用 SQL 或 DataFrame API 对结构化数据进行查询；
支持多种数据源，包括 Hive，Avro，Parquet，ORC，JSON 和 JDBC；
支持 HiveQL 语法以及用户自定义函数 (UDF)，允许你访问现有的 Hive 仓库；
支持标准的 JDBC 和 ODBC 连接；
支持优化器，列式存储和代码生成等特性，以提高查询效率。
Spark Streaming
Spark Streaming 主要用于快速构建可扩展，高吞吐量，高容错的流处理程序。支持从 HDFS，Flume，Kafka，Twitter 和 ZeroMQ 读取数据，并进行处理。

Spark Streaming 的本质是微批处理，它将数据流进行极小粒度的拆分，拆分为多个批处理，从而达到接近于流处理的效果。

MLlib
MLlib 是 Spark 的机器学习库。其设计目标是使得机器学习变得简单且可扩展。它提供了以下工具：

常见的机器学习算法：如分类，回归，聚类和协同过滤；
特征化：特征提取，转换，降维和选择；
管道：用于构建，评估和调整 ML 管道的工具；
持久性：保存和加载算法，模型，管道数据；
实用工具：线性代数，统计，数据处理等。
Graphx
GraphX 是 Spark 中用于图形计算和图形并行计算的新组件。在高层次上，GraphX 通过引入一个新的图形抽象来扩展 RDD(一种具有附加到每个顶点和边缘的属性的定向多重图形)。为了支持图计算，GraphX 提供了一组基本运算符（如： subgraph，joinVertices 和 aggregateMessages）以及优化后的 Pregel API。此外，GraphX 还包括越来越多的图形算法和构建器，以简化图形分析任务。

————————————————