Spark程序 "Hello World！"实例

最新推荐文章于 2024-08-20 00:30:00 发布

Java精选

最新推荐文章于 2024-08-20 00:30:00 发布

阅读量4.1k

点赞数

分类专栏： javaEE spark

javaEE 同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

spark

1 篇文章 0 订阅

订阅专栏

简单介绍第一个程序"Hello World！"，就是存储于HDFS的Log文件中计算出"Hello World!"的行数，存储路径为hdfs://root/Log，计算代码如下：

1

2

3

4

5

 
      var  
      sc 
      = 
      new  
      SparkContext( 
      "spark://localhost:6030" 
      , 
      "Hello world！" 
      , 
      "YOUR_SPARK_HOME" 
      , 
      "YOUR_APP_JAR" 
      ) 
     
 
      var  
      file  
      =  
      sc.textFile( 
      "hdfs:root/Log" 
      ) 
     
 
      var  
      filterRDD  
      =  
      file.filter( 
      _ 
      .contains( 
      "Hello World！" 
      )) 
     
 
      filterRDD.cache() 
     
 
      filterRDD.count() 
     

行1对于所有的Spark的程序而言，要进行任何操作前需要创建一个Spark的上下文，在创建上下文的过程中，程序会向集群申请资源以及构建相应的运行环境。一般来说，创建SparkContext对象需要传入四个变量如下：

1

2

3

4

 
      1 
      、变量就是Spark程序运行的集群地址，如“spark 
      : 
      //localhost:6030”（假设集群在本地启动监听6030端口）； 
     
      2 
      、参数是Spark程序的标识； 
     
      3 
      、参数需要指明Spark安装的路径； 
     
      4 
      、参数需要传入Spark程序的jar包路径。