spark
攻城的蒂巴格
这个作者很懒,什么都没留下…
展开
-
spark学习笔记(1)初来乍到
spark的诞生 随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。spark是基于map reduce算法实现的分布式计算框架。和Hadoop MapReduce类似,但是spark的诞生解决在Hadoop在计算速度上的劣势。spark的数据可以保存在内存上,而不是读原创 2016-09-27 11:31:22 · 878 阅读 · 0 评论 -
spark学习笔记(2)spark基本概念和术语解释
在学习大数据一些常用的概念或术语还是要理解和掌握的,这对解析的学习是很帮助。这也是我最近发现的,在接下来的大数据学习中,我将把这一块的知识点提到前面来。1、spark三种部署方式:standalone、spark on mesos、spark on yarn2、Master主控节点、Worker工作节点、客户端节点;(1)其中Master主控节点,顾名思义,类似于领导者,在整个集群中原创 2016-09-27 16:17:05 · 1494 阅读 · 0 评论 -
spark学习笔记(3)spark核心数据结构RDD
RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。(1)传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点原创 2016-09-27 15:02:14 · 3755 阅读 · 0 评论 -
spark学习笔记(4)IntelliJ IDEA搭建Spark开发环境
基于IntelliJ IDEA开发Spark的Maven项目——Scala语言1、Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2016,IDEA工具越来越被大家认可,开发Java, Python ,scala原创 2016-09-29 14:36:47 · 12313 阅读 · 3 评论 -
spark学习笔记(5)WordCount for Spark
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import java.util.Arrays;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i原创 2016-09-30 11:34:28 · 849 阅读 · 0 评论 -
Storm Trident state 原理
Trident在读写有状态的数据源方面是有着一流的抽象封装的。状态即可以保留在topology的内部,比如说内存和HDFS,也可以放到外部存储当中,比如说Memcached或者Cassandra。这些都是使用同一套Trident API。Trident以一种容错的方式来管理状态以至于当你在更新状态的时候你不需要去考虑错误以及重试的情况。这种保证每个消息被处理有且只有一次的原理会让你更放心的转载 2016-10-26 16:03:57 · 738 阅读 · 0 评论