PySpark实战（一）——大数据时代及Spark

最新推荐文章于 2024-06-16 00:00:00 发布

狻猊来当程序媛

最新推荐文章于 2024-06-16 00:00:00 发布

阅读量335

点赞数

分类专栏： PySpark 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44274736/article/details/129491605

版权

PySpark 专栏收录该内容

6 篇文章 2 订阅

订阅专栏

大数据特点

Volumn —— 大量

Velocity —— 高速

Variety —— 多样

Value —— 低价值密度

Veracity —— 真实性

发展趋势

是一种生产资料

与物联网和5G融合

大数据理论的突破

数据公开和标准化

数据安全

常用的大数据工具

分布式存储 Hadoop HDFS和Kafka

分布式计算包括批处理和流式计算 Hadoop MapReduce Spark Flink

分布式查询 Hive HBase Kylin Impala

分布式挖掘 Spark ML Alink

常用工具简介

Hive

将结构化的数据映射为表，用于SQL处理

本质上是一个翻译器，将SQL语句翻译成MapReduce任务运行

HBase

分布式、面向列的开源数据库

适合存储非结构化数据

基于列的存储模式

Apache Phoenix

构建在Hadoop之上的，构建在HBase上的一个SQL翻译层

用Java开发，作为HBae内嵌的JDBC驱动

该引擎将SQL语句翻译成一个或多个HBase扫描任务，并编排执行以生成标准的JDBC结果集

Apache Drill

开源的、低延迟的分布式海量数据查询引擎

Apache Hudi

基于HDFS

支持行级别的数据更新，支持仅对增量数据进行查询

Apache Kylin

是数据平台上一个开源的OLAP引擎

多维立方体预计算技术

Apache Presto

开源的分布式SQL查询引擎

ClickHouse

用于数据分析的数据库

Spark

大数据计算引擎

Scala语言开发

Apache Flink

是一个计算框架和分布式处理引擎

Apache Storm

分布式实时计算系统

Apache Druid

分布式、支持实时多维OLAP分析的数据处理系统

Apache Kafka

开源流处理平台

TensorFlow

端到端的开源机器学习平台

Pytorch

以Python优先的深度学习框架

Apache Suerset

数据可视化工具

Elasticsearch

开源的、分布式的、提供Restful API的搜索和数据分析引擎

Jupyter notebook

Web工具

Apache Zeppelin

提供交互式数据分析的基于Web的笔记本

HDFS支持纠删码（是一种比副本存储更节省存储空间的数据持久化存储方法）

Spark

内存计算

支持多种编程语言

提交一个作业就是一个Application，一个Application有一个SparkContext。由集群上的驱动程序和执行程序组成。

一个Spark作业运行时会启动一个Driver进程，即作业的主进程，运行应用程序的main函数，并创建SparkContext进程。

Cluster Manager用于获取集群资源的外部服务。

Executor执行作业Task，接收Driver的命令来加载和运行。一个Executor可以执行一个到多个Task，多个Task之间可以互相通信。

SparkContext是调度的核心，是程序的入口。

狻猊来当程序媛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PySpark实战（一）——大数据时代及Spark

PySpark实战大数据认知
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。