1.什么是Spark

视频教程链接:

尚硅谷Spark从入门到精通:https://www.bilibili.com/video/BV11A411L7CK?p=90&spm_id_from=pageDriver

尚硅谷Spark性能调优:https://www.bilibili.com/video/BV1QY411x7xL

Spark简介

官方网站:

https://spark.apache.org/docs/1.3.1/

1.什么是Spark?

这里直接引用官网的介绍:

Spark是一个统一的大规模数据分析引擎

img

2.为什么Spark如此流行?

  • 速度快
  • 使用简单
  • 通用性
    • img
  • 运行在任何地方

3.Spark的组成

img

SparkCore作为核心处理引擎,在此之上支持:

  • Spark SQL:SQL处理数据集
  • SparkStreaming:流式处理
  • Mlib:机器学习
  • GraphX:支持图计算

4.开箱即用

文档准备:

[root@cloud-3 spark]# vim /tmp/words.txt 
hello me you her
hello me you
hello me
hello

代码编写:

scala> val textFile = sc.textFile("file:///tmp/words.txt")
textFile: org.apache.spark.rdd.RDD[String] = file:///tmp/words.txt MapPartitionsRDD[1] at textFile at <console>:23

scala> val counts = textFile.flatMap(_.split(" ")).map(_,1).reduceByKey(_+_)
<console>:23: error: missing parameter type for expanded function ((x$2: <error>) => textFile.flatMap(((x$1) => x$1.split(" "))).map(x$2, 1).reduceByKey(((x$3, x$4) => x$3.$plus(x$4))))
       val counts = textFile.flatMap(_.split(" ")).map(_,1).reduceByKey(_+_)
                                                       ^

scala> val counts = textFile.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
counts: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:23

scala> counts.collect
res0: Array[(String, Int)] = Array((hello,4), (me,3), (you,2), (her,1))         


[(String, Int)] = Array((hello,4), (me,3), (you,2), (her,1))         

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
org.apache.spark是Apache Spark的核心包。它提供了Spark的核心功能和API,包括Spark的分布式计算引擎、数据处理和分析功能等。在Spark中,org.apache.spark包含了各种模块和类,用于处理数据、执行任务和管理集群资源等。例如,org.apache.spark.sql包提供了Spark SQL的功能,org.apache.spark.streaming包提供了流处理的功能,org.apache.spark.ml包提供了机器学习的功能等。通过引入org.apache.spark包,我们可以使用Spark的各种功能和API来开发和执行Spark应用程序。 #### 引用[.reference_title] - *1* [Spark源码解析之org.apache.spark.launcher.Main源码解析](https://blog.csdn.net/weixin_45353054/article/details/104053118)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [spark报错org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:](https://blog.csdn.net/qq_44665283/article/details/128960875)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [pyspark运行问题:org.apache.spark.sparkexception: python worker failed to connect back](https://blog.csdn.net/weixin_46451672/article/details/124793722)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值