Spark
文章平均质量分 78
Wangqyoho
多思考。
展开
-
Spark学习——始
公司项目需要,开始用spark streaming 消费消息队列来缓解之前手写consumer导致的集群资源紧张以及开销大的性能问题。于是,在这里记录一些spark知识,自己也很感兴趣,所以就好好做一个专题吧。开篇,当然是一些老生常谈的论调:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校原创 2017-04-14 15:54:11 · 569 阅读 · 0 评论 -
Spark学习——spark中的几个概念的理解及参数配置
首先是一张spark的部署图: 节点类型有:1. master 节点: 常驻master进程,负责管理全部worker节点。2. worker 节点: 常驻worker进程,负责管理executor 并与master节点通信。dirvier:官方解释为: The process running the main() function of the application and原创 2017-04-17 14:37:03 · 1920 阅读 · 0 评论 -
Spark学习——RDD基本操作
Spark操作分为transformation和action,现将常用的记录在此: //transformation //将元素一个一个转换 JavaRDD map = raw.map(new Function() { @Override public String call(String strin原创 2017-04-17 13:44:26 · 905 阅读 · 0 评论 -
Spark学习——缓存、闭包及共享变量
一、缓存Spark中也有缓存机制,或者说持久化机制。因为RDD的转化都是惰性的,这就意味着在调用action操作之前Spark是不会计算的,Spark会在内部记录所要求的执行步骤的全部流程,构建一个有向无环图(DAG)。同样在把数据读入到RDD的操作也是惰性的。由于这个特性,有时候需要能够多次使用同一个RDD时,如果简单地对RDD调用action操作,Spark每次都会重算RDD和它的原创 2017-04-17 16:25:35 · 3510 阅读 · 0 评论 -
Spark学习——RDD
在介绍RDD之前,先讲点前话:因为我用的Java api,所以第一件事就是创建一个JavaSparkContext对象,这个对象告诉了Spark如何访问集群SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);JavaSparkContext sc = new JavaSparkContext(con原创 2017-04-14 18:04:02 · 676 阅读 · 0 评论