PySpark
华仔宝宝
这个作者很懒,什么都没留下…
展开
-
Spark Streaming
目录一、SparkStreaming简介二、DStream简介三、DStream操作1. 无状态转化操作2、有状态转化操作Spark Streaming 优缺点:一、SparkStreaming简介SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP套接...原创 2020-03-26 14:31:46 · 105 阅读 · 0 评论 -
Spark SQL
目录Spark SQL产生背景Spark SQL的特点SparkSessionDataFramesSpark SQL的执行计划RDD、DataFrame和DataSetSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式 SQL 查询引擎。Spark SQL产生背景Hive将Hive SQL转换成...原创 2020-03-26 08:08:11 · 101 阅读 · 0 评论 -
Spark Core
Spark的核心是Spark CoreSpark的核心是Spark Core,上面的Spark Sql对接的是Hive等结构化查询,Spark Streaming是对接的流式计算,后面的那两个也是主要用在科学任务中,但是他们的基础都是spark core,而Spark core的核心就是RDD操作,RDD的操作最重要的是算子。RDD产生背景RDD是Spark的基石,是实现Spark数据处理...原创 2020-03-17 17:33:36 · 140 阅读 · 0 评论 -
Apache Spark
Apache Spark™是用于大规模数据处理的统一分析引擎一、架构及生态架构示意图如下:注:包括SQL和DataFrames,MLlib机器学习, GraphX和Streaming。sparkcore可以用来做离线处理,sparksql可以用来交互式查询,sparkstreaming用来进行实时处理,MLib用来进行机器学习,GraphX进行图计算。您可以在同一应用程序中无缝组合这些库。...原创 2020-03-11 20:27:46 · 203 阅读 · 0 评论 -
Spark运行过程-三种模式
ark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。1、本地模式:Spark单机运行,常用于本地开发测试,本地还分为local和local cluster。2、Standalo...原创 2020-03-14 22:05:40 · 617 阅读 · 0 评论 -
大数据处理系统
大数据处理系统可以分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。目前主流的三大分布式计算系统Hadoop、Storm、Spark被广泛运用于大数据领域。批处理大数据系统代表:Hadoop注:这类系统虽然可对完整大数据集实现高效的即席查询,但无法查询到最新的实时数据,存在数据迟滞高等问题流处理大数据系统代...原创 2020-03-11 20:31:15 · 1274 阅读 · 0 评论