使用 Spark Shell 进行交互式分析

最新推荐文章于 2022-07-02 23:40:56 发布

Singularinty

最新推荐文章于 2022-07-02 23:40:56 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Singularinty/article/details/80747139

版权

本文介绍了如何使用 Spark Shell 进行交互式数据分析。通过 Spark Shell，你可以加载数据，执行各种转换和动作，如计数、过滤、统计最大行数等。此外，还展示了如何使用 map、reduce 和 cache 等操作来处理 RDD，以及如何创建独立的 Spark 应用程序。

摘要由CSDN通过智能技术生成

    基础 
  

    提供了一种来学习该 
  

    比较简单的方式，以及一个来分析数据交互的强大的工具。在 
  

    （运行于 
  

    虚拟机之上，并能很 
  

    Spark 
  

    shell 
  

API

    Scala 
  

    Java 
  

    好的调用已存在的 
  

    类库）或者 
  

    中它是可用的。通过在 
  

    目录中运行以下的命令来启动它 : 
  

    Java 
  

    Python 
  

    Spark 
  

    Scala 
  

    ./bin/spark-shell 
  

    Spark 
  

    的主要抽象是一个称为弹性分布式数据集（ 
  

    ）的分布式的 
  

    集合。 
  

    可以从 
  

的

    （例如 
  

    文件） 
  

RDD

    item 
  

RDD

    Hadoop 
  

    InputFormats 
  

    HDFS 
  

    或者通过其它 
  

    的转换来创建。让我们从源目录中的 
  

    文件中的文本创建一个新的 
  

RDD

    README 
  

    RDD : 
  

    Scala 
  

    scala> val textFile = sc.textFile("README.md") 
  

    textFile: org.apache.spark.rdd.RDD[String] = README.md 
  

    MapPartitionsRDD[1] at textFile at <console>:25 
  

RDD

    有可以返回值的 
  

    （动作），还有可以返回指定的新 
  

的

    （转换）。让我们启动一个新的 
  

    （动作） : 
  

    actions 
  

RDD

    transformations 
  

    actions 
  

    Scala 
  

    scala> textFile.count() // RDD items 
  

    res0: Long = 126 
  

    scala> textFile.first() // RDD item 
  

    res1: String = # Apache Spark 
  

    现在让我们使用一个 
  

    （转换）。我们将使用 
  

    （转换）来返回一个新的 
  

    （文件中 
  

    的一个子集） 
  

    transformation 
  

    filter 
  

    transaction 
  

RDD

    item 
  

。

    Scala 
  

    scala> val linesWithSpark = textFile.filter(line => 
  

    line.contains("Spark")) 
  

    linesWithSpark: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] 
  

    at filter at <console>:27 
  

    我们可以链式操作 
  

    （转换） 和 
  

    （动作）。 
  

    transformation 
  

    action 
  

      基础 
    

      提供了一种来学习该 
    

      比较简单的方式，以及一个来分析数据交互的强大的工具。在 
    

      （运行于 
    

      虚拟机之上，并能很 
    

      Spark 
    

      shell 
    

API

      Scala 
    

      Java 
    

      好的调用已存在的 
    

      类库）或者 
    

      中它是可用的。通过在 
    

      目录中运行以下的命令来启动它 : 
    

      Java 
    

      Python 
    

      Spark 
    

      Scala 
    

      ./bin/spark-shell 
    

      Spark 
    

      的主要抽象是一个称为弹性分布式数据集（ 
    

      ）的分布式的 
    

      集合。 
    

      可以从 
    

的

      （例如 
    

      文件） 
    

RDD

      item 
    

RDD

      Hadoop 
    

      InputFormats 
    

      HDFS 
    

      或者通过其它 
    

      的转换来创建。让我们从源目录中的 
    

      文件中的文本创建一个新的 
    

RDD

      README 
    

      RDD : 
    

      Scala 
    

      scala> val textFile = sc.textFile("README.md") 
    

      textFile: org.apache.spark.rdd.RDD[String] = README.md 
    

      MapPartitionsRDD[1] at textFile at <console>:25 
    

RDD

      有可以返回值的 
    

      （动作），还有可以返回指定的新 
    

的

      （转换）。让我们启动一个新的 
    

      （动作） : 
    

      actions 
    

RDD

      transformations 
    

      actions 
    

      Scala 
    

      scala> textFile.count() // RDD items 
    

      res0: Long = 126 
    

      scala> textFile.first() // RDD item 
    

      res1: String = # Apache Spark 
    

      现在让我们使用一个 
    

      （转换）。我们将使用 
    

      （转换）来返回一个新的 
    

      （文件中 
    

      的一个子集） 
    

      transformation 
    

      filter 
    

      transaction 
    

RDD

      item 
    

。

      Scala 
    

      scala> val linesWithSpark = textFile.filter(line => 
    

      line.contains("Spark")) 
    

      linesWithSpark: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] 
    

      at filter at <console>:27 
    

      我们可以链式操作 
    

      （转换） 和 
    

      （动作）。 
    

      transformation 
    

      action 
    

      ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们 
    

      ApacheCN - Apache Spark 2.0.2 中文文档 - v0.1.0 - 加入我们 
    

      我们可以链式操作 
    

      （转换） 和 
    

      （动作）。 
    

      transformation 
    

      action 
    

      Scala 
    

      scala> textFile.filter(line => line.contains("Spark")).count() // How 
    

      many lines contain "Spark"? 
    

      res3: Long = 15 
    

      更多 RDD 上的操作 
    

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Singularinty CSDN认证博客专家 CSDN认证企业博客

码龄7年

42: 原创

26万+: 周排名

152万+: 总排名

8万+: 访问

: 等级

1119: 积分

10: 粉丝

31: 获赞

13: 评论

70: 收藏

私信

关注

最新评论

JVM 系列一：Native memory allocation 导致JVM Crash
挖掘机技术哪家强: 我也是这样的，服务器64g，持续运行几周后，剩余内存还有50%，java程序就开不起来了，有找到解决方法吗
JVM 系列一：Native memory allocation 导致JVM Crash
hhzhldhjl: 占用网络资源
JVM 系列一：Native memory allocation 导致JVM Crash
度du: 同样的问题，但是我电脑32g内存，而且内存占用也就百分之30、40的样子，开了2个idea，一个xd文件idea就闪退，然后会在桌面生成2个日志文件。麻烦有知道如何解的大佬教教我。
数据库中常说的steal和force到底是什么
jyb_96: 点赞，解决我的大困惑
JVM 系列一：Native memory allocation 导致JVM Crash
无名恒一: 看吐了谁想看啊。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。