Learning PySpark

最新推荐文章于 2020-12-03 16:48:55 发布

划过的梦神

最新推荐文章于 2020-12-03 16:48:55 发布

阅读量1.8k

点赞数

分类专栏： machine learning python数据分析与数据挖掘实战学习笔记机器学习文章标签： apache spark

python数据分析与数据挖掘实战学习笔记同时被 3 个专栏收录

5 篇文章 11 订阅

订阅专栏

machine learning

3 篇文章 0 订阅

订阅专栏

机器学习

3 篇文章 1 订阅

订阅专栏

Chapter 1. Understanding Spark

Apache Spark是Matei Zaharia开发的一个强大的开源原始处理引擎，作为他在加州大学伯克利分校时加州大学的博士论文的一部分。spark的第一个版本在2012年发布。从那以后,在2013年,他和共同创立的Zaharia,成为 Databricks技术首席;他还持有来自麻省理工学院斯坦福大学教授职位。同时,Spark代码库被捐赠给了Apache软件基础,已成为其旗舰项目。
Apache Spark快速，易于应用框架，使得你们能够解决各种各样的复杂的数据是否半结构化问题,结构化、流或机器学习，数据科学。它还已经成为最大的开源社区大数据，有超过250年+组织和1000贡献者，Spark Meetup 社区成员超过300000，成员来自超过570个世界的不同地方。
在这一章，我们提供一个初级读本去了解Apache Spark，我们将会解释Spark Jobs and APIs的概念，介绍Spark 2.0的体系结构，探索Spark2.0的特性。
主题包含：

什么是Apache Spark？
Spark Jobs and APIs
回顾弹性分布式数据集(RDDs),DataFrames,数据集(Datasets)
回顾Catalyst Optimizer 和Project Tungsten
回顾Spark 2.0体系构

什么是Apache Spark?

       Apache Spark是一个强大的开源的分布式查询和处理引擎。它提供了灵活而且具有扩展性的MapReduce却有明显更高的速度：当数据存储在内存时比Apache Hadoop快100倍，当访问磁盘时快十倍。
       Apache Spark允许用户读取、转换、聚合数据，也可以轻松训练和部署复杂的统计模型。Java, Scala, Python, R and SQL都可以访问Spark APIs。Apache Spark可以用来创建包（package)和应用（application）,他们作为库（libraries)部署在集群(cluster)或交互式的通过notebooks进行快速分析。（就像，例如，Jupyter,Spark Notebook,Databricksnotebooks,andApacheZeppelin）Apache Spark公开了一大堆数据分析师十熟悉的库，这些数据科学家和研究人员使用过Python’spandas 或 R’sdata.frames or data.tables。一个非常重要的提示：Spark DataFrames和pandas 或者data.frames / data.tables使用相似，这里有一些差异所以调和你的期望。有更多的SQL背景的用户可以使用语言来塑造他们的数据。另外，Apache Spark 交付时已经实现和优化了一些算法,统计模型,和框架:MLlib and ML formachine learning, GraphX and GraphFrames for graph processing, and SparkStreaming (DStreams and Structured).Apache Spark允许用户把这些库无缝地结合在相似的应用程序。
       Apache Spark可以很容易地运行在一台笔记本电脑,也可以很容易部署独立模式(standalone mode),over YARN, or Apache Mesos,或者本地集群或在云中。它可以读和写来自不同数据源的数据,包括(但不限于)HDFS, Apache Cassandra,Apache HBase, and S3:
这里写图片描述

Spark Jobs and APIs

在这一节，我们将会对Apache Spark Jobs and APIs有一个概观。这为随后的Spark 2.0体系结构部分提供了必要的基础。
执行过程

划过的梦神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning PySpark

Chapter 1. Understanding Spark Apache Spark是Matei Zaharia开发的一个强大的开源原始处理引擎，作为他在加州大学伯克利分校时加州大学的博士论文的一部分。spark的第一个版本在2012年发布。从那以后,在2013年,他和共同创立的Zaharia,成为 Databricks技术首席;他还持有来自麻省理工学院斯坦福大学教授职位。同时,Spa
复制链接

扫一扫

专栏目录