原理
文章平均质量分 96
dabokele
这个作者很懒,什么都没留下…
展开
-
Spark Streaming + Flume整合官网文档阅读及运行示例
1,基于Flume的Push模式(Flume-style Push-based Approach) Flume被用于在Flume agents之间推送数据.在这种方式下,Spark Streaming可以很方便的建立一个receiver,起到一个Avro agent的作用.Flume可以将数据推送到改receiver.1),需求从集群中选择一台机器,当Flu原创 2015-09-23 15:56:30 · 2905 阅读 · 0 评论 -
Spark Streaming应用启动过程分析
本文为SparkStreaming源码剖析的第三篇,主要分析SparkStreaming启动过程。 在调用StreamingContext.start方法后,进入JobScheduler.start方法中,各子元素start方法的调用顺序如下:private var eventLoop : EventLoop[JobSchedulerEvent] = nullval listenerBus原创 2016-12-20 23:44:25 · 4858 阅读 · 0 评论 -
Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func) map操作需要传入一个函数当做参数,具体调用形式为val b = a.map原创 2016-09-21 00:09:18 · 14328 阅读 · 2 评论 -
Sqoop-1.4.6 Merge源码分析与改造使其支持多个merge-key
从源代码上分析sqoop merge工具,并将其改造成可以支持多个merge字段的形式。原创 2016-08-23 23:22:50 · 5733 阅读 · 1 评论 -
Kafka系列之-自定义Producer
Kafka自定义Producer以及Partitioner,并对Producer进行一定的封装。原创 2016-08-15 23:37:49 · 23529 阅读 · 1 评论 -
Spark UI界面原理
本文以Spark-1.6.0源码为基础,分析了Spark UI界面的框架构成,及页面数据展示方法。原创 2016-07-06 23:21:51 · 21595 阅读 · 0 评论 -
Hive-ORC文件存储格式
本文分析Hive中ORC文件存储格式的原理和实际案例原创 2016-05-31 00:18:15 · 20396 阅读 · 0 评论 -
Hive-ORC文件存储格式(续)
本文在Hive-ORC文件存储格式的理论基础上,进一步分析一个实际的Hive ORC表中的数据存储形式。原创 2016-07-02 23:35:36 · 10622 阅读 · 1 评论 -
Hive-RCFile文件存储格式
RCFile的文件存储格式,可以和ORC格式进行对比原创 2016-06-03 23:14:20 · 3788 阅读 · 0 评论 -
分析比较KafkaWordCount及DierctKafkaWordCount
参考spark官方文档,Spark Streaming + Kafka Integration Guide,其中提到Spark Streaming如何从Kafka中接收数据.主要有两种方法,一种是使用Receivers的旧方法,另一种是不使用Receivers的新方法(从Spark 1.3才开始引入)1,Approach 1: Receiver-based Approach(基于Rec翻译 2015-09-24 10:31:03 · 1570 阅读 · 0 评论 -
Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表.编程入口:SQLContext2,SQLContext由SparkContext对象创建也可创建一个功能更加全面的HiveContext对象,HiveContext是SQLContext的子类,从API中可以看出HiveContext extends SQLContext,所以能用SQL翻译 2015-09-24 10:21:28 · 4100 阅读 · 0 评论 -
Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵.1,本地向量(Local Vector) 一个本地向量是由从0开始的整型下标和double型值组成,存储在一个单机节点上.MLlib支持两种类型的本地向量:密集的和稀疏的.密集向量用一个double数组来存储值.而一个翻译 2015-09-24 09:57:07 · 4346 阅读 · 0 评论 -
Spark运行环境之SparkEnv和通信工具RpcEnv
Spark在运行时Driver端和Executor端需要互相通信,那么这种通信是如何进行的?在SparkEnv中有两个方法createDriverEnv,createExecutorEnv,分别用于创建Driver端和Executor端的SparkEnv对象。看一下SparkEnv对象的结构,从下面的代码中可以看到SparkEnv包含了Spark中很多重要组件,比如用于通信的RpcEnv,用于...原创 2019-01-03 17:14:15 · 2605 阅读 · 2 评论