【大数据笔记】- Spark Shell

一.基础环境:

本文默认了你已经有了hadoop+Spark环境,且有一台linux客户机,配置好了各种环境变量,可执行Spark命令的。

以上环境有没完成的,自行去百度完成。

二.Spark Shell 交互

1.准备一个分析文件

word_test.txt(内容随意,我放的是英文诗),上传到hdfs,/tmp/hubg/目录下

hadoop fs -put word_test.txt /tmp/hubg/word_test.txt

看一下文件内容:

hadoop fs -cat /tmp/hubg/word_test.txt

2.启动spark-shell,会看到scala交互窗口

spark-shell

 3.指向一个文件来创建一个新的 Dataset:

val textFile = spark.read.textFile("/tmp/hubg/word_test.txt")

 4.统计一下有多少行数据(换行符分割)。

textFile.count() // Number of items in this Dataset

 

5.返回第一行数据。

textFile.first() // First item in this Dataset

 

 6.我们调用 filter 以返回一个新的 Dataset,它是文件中的 items 的一个子集。

val linesWithSpark = textFile.filter(line => line.contains("zoo"))
linesWithSpark.count()

7.Dataset actions(操作)和 transformations(转换)可以用于更复杂的计算。例如,统计单词数最多的行 :

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

 

第一个 map 操作创建一个新的 Dataset,将一行数据 map 为一个整型值。在 Dataset 上调用 reduce 来找到最大的行计数。参数 map 与 reduce 是 Scala 函数(closures),并且可以使用 Scala/Java 库的任何语言特性。

8.调用java.lang.Mat函数声明,我们将定义一个 max 函数:

import java.lang.Math
textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))

 9.word counts来一个

val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()
wordCounts.collect()

 10.Spark 还支持 Pulling(拉取)数据集到一个群集范围的内存缓存中。linesWithSpark 数据集到缓存中

linesWithSpark.cache()
linesWithSpark.count()

就写这些了,更多用法大家看官网吧,如pyspark命令行,还有Spark API 来创建独立的应用程序Scala(SBT),Java(Maven)和 Python 等例子:

http://spark.apachecn.org/#/docs/3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值