自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

翻译 《spark实战》笔记08--应用库--Spark Streaming

来源:《spark实战》讲义[1 ] Spark Streaming介绍Spark Streaming属于Spark的核心api, 它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习...

2019-06-17 16:00:47 197

翻译 《spark实战》笔记07--应用库--Spark SQL

来源:《spark实战》讲义 [1 ]Spark SQLSparkSQL提供了完整的数据写入支持,从而补全了多数据源互操作的最后一块重要拼图。可以与Hive、 Parquet、 JSON、 Pandas等多种数据源间的任意转换,正是这一增强的直接成果。Spark SQL的特点:引入了新的RDD类型SchemaRDD,可以象传统数据库定义表一样来定义SchemaRDD,Schem...

2019-06-17 15:39:13 180

翻译 《spark实战》笔记06--应用库--整体介绍

来源:《spark实战》讲义[1 ]Spark之上提供了四种应用库:Spark SQL 是为处理结构化数 据而设计的模块Spark Streaming 可以很容易 地创建可扩展和容错性的流 式应用MLlib 是Spark的可扩展机器 学习库GraphX 是Spark的并行图计算 API [2 ]Spark序列化:Spark默认是使用Java的 ObjectOutputS...

2019-06-17 11:44:05 178

翻译 《spark实战》笔记05--核心模块--Storage、Shuffle

来源:《spark实战》讲义[1 ] StorageStorage模块主要分为两层:• 通信层: storage模块采用的是master-slave结构来实现通信层, master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。• 存储层: storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提...

2019-06-17 11:27:54 214

翻译 《spark实战》笔记04--核心模块--Scheduler

来源:《spark实战》讲义[1 ] Scheduler整体介绍• Scheduler模块作为Spark最核心的模块之一,充分体现了Spark与MapReduce的不同之处,体现了Spark DAG思想的精巧和设计的优雅。• Scheduler模块分为两大主要部分, DAGScheduler和TaskScheduler。[2 ] Scheduler之DAGSchedulerDAGS...

2019-06-17 11:20:10 335

翻译 《spark实战》笔记03--核心模块--RDD

来源:《spark实战》讲义[1 ]Spark的关键运算组件Spark的核心组件包括RDD、 Scheduler、 Storage、 Shuffle四部分: RDD是Spark最核心最精髓的部分,spark将所有数据都抽象成RDD。 Scheduler是Spark的调度机制,分为DAGScheduler和TaskScheduler。 Storage模块主要管理缓存后的RDD...

2019-06-17 10:15:26 304

翻译 《spark实战》笔记02--Spark基础概念

来源:《spark实战》讲义[1 ] Spark生态系统[2 ] Spark特点先进架构• Spark采用Scala语言编写,底层采用了actor model的akka作为通讯框架,代码十分简洁高效。• 基于DAG图的执行引擎,减少多次计算之间中间结果写到Hdfs的开销。• 建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场...

2019-06-17 09:37:18 197

翻译 《spark实战》笔记01--Spark与Hadoop联系

《spark实战》笔记总结来源:《spark实战》讲义[1.1 ] spark与hadoop联系Spark可以使用YARN作为它的集群管理器,并且可以处理HDFS的数据。这对于已经部署Hadoop集群的用户特别重要,毕竟不需要做任何的数据迁移就可以使用Spark的强大处理能力。[ 1.2] Spark与Hadoop的区别框架:MR:由Map和Reduce两个阶段,并通...

2019-06-17 09:02:14 281

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除