PySpark实战(一)——大数据时代及Spark

大数据特点

Volumn  ——  大量

Velocity  ——  高速

Variety  ——  多样

Value  ——  低价值密度

Veracity  ——  真实性

发展趋势

是一种生产资料

与物联网和5G融合

大数据理论的突破

数据公开和标准化

数据安全

常用的大数据工具

分布式存储        Hadoop HDFS和Kafka

分布式计算        包括批处理和流式计算        Hadoop MapReduce  Spark  Flink

分布式查询        Hive   HBase   Kylin   Impala

分布式挖掘        Spark ML      Alink

常用工具简介

Hive

将结构化的数据映射为表,用于SQL处理

本质上是一个翻译器,将SQL语句翻译成MapReduce任务运行

HBase

分布式、面向列的开源数据库

适合存储非结构化数据

基于列的存储模式

Apache Phoenix

构建在Hadoop之上的,构建在HBase上的一个SQL翻译层

用Java开发,作为HBae内嵌的JDBC驱动

该引擎将SQL语句翻译成一个或多个HBase扫描任务,并编排执行以生成标准的JDBC结果集

Apache Drill

开源的、低延迟的分布式海量数据查询引擎

Apache Hudi

基于HDFS

支持行级别的数据更新,支持仅对增量数据进行查询

Apache Kylin

是数据平台上一个开源的OLAP引擎

多维立方体预计算技术

Apache Presto

开源的分布式SQL查询引擎

ClickHouse

用于数据分析的数据库

Spark

大数据计算引擎

Scala语言开发

Apache Flink

是一个计算框架和分布式处理引擎

Apache Storm

分布式实时计算系统

Apache Druid

分布式、支持实时多维OLAP分析的数据处理系统

Apache Kafka

开源流处理平台

TensorFlow

端到端的开源机器学习平台

Pytorch

以Python优先的深度学习框架

Apache Suerset

数据可视化工具

Elasticsearch

开源的、分布式的、提供Restful API的搜索和数据分析引擎

Jupyter notebook

Web工具

Apache Zeppelin

提供交互式数据分析的基于Web的笔记本

HDFS支持纠删码(是一种比副本存储更节省存储空间的数据持久化存储方法)

Spark

内存计算

支持多种编程语言

提交一个作业就是一个Application,一个Application有一个SparkContext。由集群上的驱动程序和执行程序组成。

一个Spark作业运行时会启动一个Driver进程,即作业的主进程,运行应用程序的main函数,并创建SparkContext进程。

Cluster Manager用于获取集群资源的外部服务。

Executor执行作业Task,接收Driver的命令来加载和运行。一个Executor可以执行一个到多个Task,多个Task之间可以互相通信。

SparkContext是调度的核心,是程序的入口。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值