chijinyan-CSDN博客

翻译《spark实战》笔记08--应用库--Spark Streaming

来源：《spark实战》讲义[1 ] Spark Streaming介绍Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源，使用简单的api函数比如 map, reduce, join, window等操作，还可以直接使用内置的机器学习...

2019-06-17 16:00:47 197

翻译《spark实战》笔记07--应用库--Spark SQL

来源：《spark实战》讲义 [1 ]Spark SQLSparkSQL提供了完整的数据写入支持，从而补全了多数据源互操作的最后一块重要拼图。可以与Hive、 Parquet、 JSON、 Pandas等多种数据源间的任意转换，正是这一增强的直接成果。Spark SQL的特点:引入了新的RDD类型SchemaRDD，可以象传统数据库定义表一样来定义SchemaRDD，Schem...

2019-06-17 15:39:13 180

翻译《spark实战》笔记06--应用库--整体介绍

来源：《spark实战》讲义[1 ]Spark之上提供了四种应用库：Spark SQL 是为处理结构化数据而设计的模块Spark Streaming 可以很容易地创建可扩展和容错性的流式应用MLlib 是Spark的可扩展机器学习库GraphX 是Spark的并行图计算 API [2 ]Spark序列化：Spark默认是使用Java的 ObjectOutputS...

2019-06-17 11:44:05 178

翻译《spark实战》笔记05--核心模块--Storage、Shuffle

来源：《spark实战》讲义[1 ] StorageStorage模块主要分为两层：• 通信层： storage模块采用的是master-slave结构来实现通信层， master和slave之间传输控制信息、状态信息，这些都是通过通信层来实现的。• 存储层： storage模块需要把数据存储到disk或是memory上面，有可能还需replicate到远端，这都是由存储层来实现和提...

2019-06-17 11:27:54 214

翻译《spark实战》笔记04--核心模块--Scheduler

来源：《spark实战》讲义[1 ] Scheduler整体介绍• Scheduler模块作为Spark最核心的模块之一，充分体现了Spark与MapReduce的不同之处，体现了Spark DAG思想的精巧和设计的优雅。• Scheduler模块分为两大主要部分， DAGScheduler和TaskScheduler。[2 ] Scheduler之DAGSchedulerDAGS...

2019-06-17 11:20:10 335

翻译《spark实战》笔记03--核心模块--RDD

来源：《spark实战》讲义[1 ]Spark的关键运算组件Spark的核心组件包括RDD、 Scheduler、 Storage、 Shuffle四部分： RDD是Spark最核心最精髓的部分，spark将所有数据都抽象成RDD。 Scheduler是Spark的调度机制，分为DAGScheduler和TaskScheduler。 Storage模块主要管理缓存后的RDD...

2019-06-17 10:15:26 304

翻译《spark实战》笔记02--Spark基础概念

来源：《spark实战》讲义[1 ] Spark生态系统[2 ] Spark特点先进架构• Spark采用Scala语言编写，底层采用了actor model的akka作为通讯框架，代码十分简洁高效。• 基于DAG图的执行引擎，减少多次计算之间中间结果写到Hdfs的开销。• 建立在统一抽象的RDD（分布式内存抽象）之上,使得它可以以基本一致的方式应对不同的大数据处理场...

2019-06-17 09:37:18 197

翻译《spark实战》笔记01--Spark与Hadoop联系

《spark实战》笔记总结来源：《spark实战》讲义[1.1 ] spark与hadoop联系Spark可以使用YARN作为它的集群管理器，并且可以处理HDFS的数据。这对于已经部署Hadoop集群的用户特别重要，毕竟不需要做任何的数据迁移就可以使用Spark的强大处理能力。[ 1.2] Spark与Hadoop的区别框架：MR：由Map和Reduce两个阶段，并通...

2019-06-17 09:02:14 281

u014149997的博客