使用scala语言编写Spark独立应用程序统计文件行数

最新推荐文章于 2024-04-29 21:18:26 发布

Yannick Li

最新推荐文章于 2024-04-29 21:18:26 发布

阅读量2.4k

点赞数 3

分类专栏： Hadoop Linux 大数据文章标签： scala spark big data

本文链接：https://blog.csdn.net/qq_45102251/article/details/122376368

版权

Hadoop 同时被 3 个专栏收录

12 篇文章 1 订阅

订阅专栏

大数据

12 篇文章 1 订阅

订阅专栏

Linux

11 篇文章 0 订阅

订阅专栏

实现内容：
使用scala语言编写独立应用程序，读取HDFS系统文件“/user/hadoop/test.txt”，统计文件行数。
通过使用sbt工具将整个应用程序打包成jar包，并将jar包通过spark-submit提交到spark中运行。
代码：
SimpleApp.scala

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object SimpleApp{
  def main(args:Array[String]){
    val logFile = "/user/hadoop/test.txt"
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile,2).cache()
    val num = logData.count()
    println("Long: %s".format(num))
  }
}

Simple.sbt
输入spark中显示的对应版本即可！

name :="Simple Project"
version := "1.0"
scalaVersion := "2.12.10"
libraryDependencies += "org.apache.spark" %% "spark-core" % "3.1.2"

打包并运行：
在这里插入图片描述
如果不加grep锁定，会显示很多其他不需要的信息。
我们可以看到标红的地方就是最后输出的结果。

Yannick Li

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
使用scala语言编写Spark独立应用程序统计文件行数

实现内容：使用scala语言编写独立应用程序，读取HDFS系统文件“/user/hadoop/test.txt”，统计文件行数；通过使用sbt工具将整个应用程序打包成jar包，并将jar包通过spark-submit提交到spark中运行。代码：SimpleApp.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobj
复制链接

扫一扫