spark概述与编程模型

最新推荐文章于 2021-12-13 22:42:35 发布

小小程序员1986

最新推荐文章于 2021-12-13 22:42:35 发布

阅读量470

点赞数

分类专栏： Spark/Scala

本文链接：https://blog.csdn.net/jethai/article/details/52345284

版权

Spark/Scala 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

spark快的原因
1.内存计算

2.DAG

spark shell已经初始化好了SparkContext，直接用sc调用即可

lineage 血统

RDD wide and narrow dependencies

窄依赖每个 RDD partition最多被一个子RDD partirion依赖

/sbin（system binary)放的都是涉及系统管理的命令。
有些系统里面，普通用户没有执行这些命令的权限。
有些系统里面，普通用户的PATH不包括/sbin

data.cache 数据放到内存中

spark-submit提交任务

scala代码

package cn.chinahadoop.spark

import org.apache.spark.{SparkContext, SparkConf}
import scala.collection.mutable.ListBuffer
import org.apache.spark.SparkContext._

/**
 * Created by chenchao on 14-3-1.
 */
class Analysis {

}

object Analysis{

  def main(args : Array[String]){

    if(args.length != 2){
      println("Usage : java -jar code.jar  file_location save_location")
      System.exit(0)
    }

   

    val conf = new SparkConf()
    conf.setSparkHome("/data/software/crazyjvm/spark")
     

    val sc = new SparkContext(conf)
    val data = sc.textFile(args(0))

    data.cache

    println(data.count)

    data.filter(_.split(' ').length == 3).map(_.split(' ')(1)).map((_,1)).reduceByKey(_+_)
    .map(x => (x._2, x._1)).sortByKey(false).map( x => (x._2, x._1)).saveAsTextFile(args(1))
  }

}

本文出自 “点滴积累” 博客，请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1700727

小小程序员1986

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark概述与编程模型

spark快的原因1.内存计算2.DAGspark shell已经初始化好了SparkContext，直接用sc调用即可650) this.width=650;" src="http://s3.51cto.com/wyfs02/M00/74/1B/wKioL1YUkdDDHekLAASNB2OLfro689.jpg" title="1-1.avi_20151007_113155.996.jpg"
复制链接

扫一扫

专栏目录