Spark
Robin_just
这个作者很懒,什么都没留下…
展开
-
In-memory Processing_01
1.Background2.Spark2.1. RDD是Spark框架中的核心概念 。可以将RDD视作数据库中的一张表。其中可以保存 任何类型的数据。Spark将数据存储在不同分区 上的RDD之中。 2.2. RDD可以从集合 直接转换来,也可以由从现存的任何Hadoop InputFormat 来,亦或者 HBase。等等。 2.3. Spark 定义的RDD数据集的存储级别 如下:MEM原创 2017-05-02 17:38:09 · 1027 阅读 · 0 评论 -
In-memory Processing_02
Spark data processing1.在Spark的运行架构中,Job往往由什么产生? 在Spark的运行架构中,一个Job包含多个Task(被送到executor上的工作单元)组成的并向计算,Job是指包含多个Task组成的并行计算,往往由Action操作产生。2.在Spark的任务处理中,Master节点充当哪些角色? master是spark主节点,负责任务和资源调度、节点原创 2017-05-04 11:20:27 · 710 阅读 · 0 评论 -
Experiment in Spark
Wordcount by Spark启动Spark#Start Spark(shell)pyspark --master yarn-client --num-executors 10 这条命令启动了py-spark的这样一个终端,它是一个命令行交互的一个终端。在这里可以运行一些spark支持的这些命令和语言,它的这个语言使用Python来编写的,所以可以在这里面运行Python的一些代码原创 2017-05-04 12:40:41 · 250 阅读 · 0 评论 -
Streaming Data Processing_11
回顾流式数据处理 1.流式数据作为今天各种应用所需要的一种新的处理方式,有它自己的一些特征,比如说秒级的这样一个反馈,比如说对数据能够在一个时间窗口里面进行一次的查看。 2.那么我们介绍了Hadoop生态环境下的Storm通过Tuple来在Spout和 Bolt之间进行一个数据的驱动方式的这样一个运行同时进行数据流的并行化,实际上它的模式是通过每一次产生新的Tuple,然后由Storm原创 2017-05-04 21:51:38 · 536 阅读 · 0 评论 -
Spark之sbt安装
下载sbt-launch.jar,并存放至/usr/local/sbt[root@master sbt]# pwd/usr/local/sbt[root@master sbt]# lssbt sbtlaunch sbt-launch.jar[root@master sbt]# cd sbtlaunch/[root@master sbtlaunch]# lsMETA-INF原创 2017-08-16 11:15:27 · 933 阅读 · 0 评论 -
Spark by Scala_worldcount
代码import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SimpleApp { def main(args: Array[String]) { val inputFile = "file:///u原创 2017-08-16 13:50:45 · 601 阅读 · 0 评论 -
Installing & Building Spark Environments
搭建步骤://20170810 周四下午 安装与部署spark环境*******************************************************************************************0.在之前Hadoop2的Yarn集群上继续搭建• # wget http://mirror.bit.edu.cn/apache/spark/spa原创 2017-08-10 14:21:46 · 322 阅读 · 0 评论