- 博客(8)
- 收藏
- 关注
翻译 《spark实战》笔记08--应用库--Spark Streaming
来源:《spark实战》讲义[1 ] Spark Streaming介绍Spark Streaming属于Spark的核心api, 它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习...
2019-06-17 16:00:47 197
翻译 《spark实战》笔记07--应用库--Spark SQL
来源:《spark实战》讲义 [1 ]Spark SQLSparkSQL提供了完整的数据写入支持,从而补全了多数据源互操作的最后一块重要拼图。可以与Hive、 Parquet、 JSON、 Pandas等多种数据源间的任意转换,正是这一增强的直接成果。Spark SQL的特点:引入了新的RDD类型SchemaRDD,可以象传统数据库定义表一样来定义SchemaRDD,Schem...
2019-06-17 15:39:13 180
翻译 《spark实战》笔记06--应用库--整体介绍
来源:《spark实战》讲义[1 ]Spark之上提供了四种应用库:Spark SQL 是为处理结构化数 据而设计的模块Spark Streaming 可以很容易 地创建可扩展和容错性的流 式应用MLlib 是Spark的可扩展机器 学习库GraphX 是Spark的并行图计算 API [2 ]Spark序列化:Spark默认是使用Java的 ObjectOutputS...
2019-06-17 11:44:05 178
翻译 《spark实战》笔记05--核心模块--Storage、Shuffle
来源:《spark实战》讲义[1 ] StorageStorage模块主要分为两层:• 通信层: storage模块采用的是master-slave结构来实现通信层, master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。• 存储层: storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提...
2019-06-17 11:27:54 214
翻译 《spark实战》笔记04--核心模块--Scheduler
来源:《spark实战》讲义[1 ] Scheduler整体介绍• Scheduler模块作为Spark最核心的模块之一,充分体现了Spark与MapReduce的不同之处,体现了Spark DAG思想的精巧和设计的优雅。• Scheduler模块分为两大主要部分, DAGScheduler和TaskScheduler。[2 ] Scheduler之DAGSchedulerDAGS...
2019-06-17 11:20:10 335
翻译 《spark实战》笔记03--核心模块--RDD
来源:《spark实战》讲义[1 ]Spark的关键运算组件Spark的核心组件包括RDD、 Scheduler、 Storage、 Shuffle四部分: RDD是Spark最核心最精髓的部分,spark将所有数据都抽象成RDD。 Scheduler是Spark的调度机制,分为DAGScheduler和TaskScheduler。 Storage模块主要管理缓存后的RDD...
2019-06-17 10:15:26 304
翻译 《spark实战》笔记02--Spark基础概念
来源:《spark实战》讲义[1 ] Spark生态系统[2 ] Spark特点先进架构• Spark采用Scala语言编写,底层采用了actor model的akka作为通讯框架,代码十分简洁高效。• 基于DAG图的执行引擎,减少多次计算之间中间结果写到Hdfs的开销。• 建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场...
2019-06-17 09:37:18 197
翻译 《spark实战》笔记01--Spark与Hadoop联系
《spark实战》笔记总结来源:《spark实战》讲义[1.1 ] spark与hadoop联系Spark可以使用YARN作为它的集群管理器,并且可以处理HDFS的数据。这对于已经部署Hadoop集群的用户特别重要,毕竟不需要做任何的数据迁移就可以使用Spark的强大处理能力。[ 1.2] Spark与Hadoop的区别框架:MR:由Map和Reduce两个阶段,并通...
2019-06-17 09:02:14 281
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人