spark之初体验

最新推荐文章于 2021-04-23 14:23:05 发布

置顶林潇飒

最新推荐文章于 2021-04-23 14:23:05 发布

阅读量239

点赞数 1

文章标签： spark scala bigdata

本文链接：https://blog.csdn.net/oracle_hotdog/article/details/82353734

版权

今天，boss问我接触过spark没有。。。。。。好的我回去学！！
今天给大家介绍一一下spark
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。
spark特点
Spark 主要有三个特点 [2] ：
首先，高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。
其次，Spark 很快，支持交互式计算和复杂算法。
最后，Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。
3. 性能特点
更快的速度
内存计算下，Spark 比 Hadoop 快100倍。
易用性
Spark 提供了80多个高级运算符。
通用性
Spark 提供了大量的库，包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。开发者可以在同一个应用程序中无缝组合使用这些库。
支持多种资源管理器
Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器

基本原理
Spark Streaming：构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎（100ms+），虽然比不上专门的流式数据处理软件，也可以用于实时计算，另一方面相比基于Record的其它处理框架（如Storm），一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。
计算方法
当下Spark已不止步于实时计算，目标直指通用大数据处理平台，而终止Shark开启SparkSQL或许已经初见端倪。
近几年来，大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点。早几年国内外研究者和业界比较关注的是在 Hadoop 平台上的并行化算法设计。然而， HadoopMapReduce 平台由于网络和磁盘读写开销大，难以高效地实现需要大量迭代计算的机器学习并行化算法。随着 UC Berkeley AMPLab 推出的新一代大数据平台 Spark 系统的出现和逐步发展成熟，近年来国内外开始关注在 Spark 平台上如何实现各种机器学习和数据挖掘并行化算法设计。为了方便一般应用领域的数据分析人员使用所熟悉的 R 语言在 Spark 平台上完成数据分析，Spark 提供了一个称为 SparkR 的编程接口，使得一般应用领域的数据分析人员可以在 R 语言的环境里方便地使用 Spark 的并行化编程接口和强大计算能力。说了这么多大家还不知道spqrk是干啥的吧，spqrk也是一个运行在分布式文件系统上的大数据处理集群相对于Hadoop来说方便的一匹！加入就拿最简单的词频统计来说mapreduce需要java好长的代码啊。在spark上三句scala语言结束你不信？
scala> val file = sc.textFile(“hdfs://h201:9000/WordCount.txt”);
***sc是在进入spark shell 时候创建一个spark context 就是spark上下文的意思
scala> val count = file.flatMap(line => line.split(” “)).map(word => (word, 1)).reduceByKey(+);
*与map类似，区别是原RDD中的元素经map处理后只能生成一个元素，而原RDD中的元素经flatmap处理后可生成多个元素来构建新RDD。

scala> count.collect();
结果：
Array[(String, Int)] = Array((hadoop,1), (hello,2), (java,1))
哈哈这个语言我也在自学今天就到这吧加会班儿大家先看到这吧！要是谁对spqrk或者scala有兴趣欢迎切磋！过几天来一篇sqark的安装和scala的配置。

林潇飒

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark之初体验

今天，boss问我接触过spark没有。。。。。。好的我回去学！！今天给大家介绍一一下spark Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。 Spark 是在 Scala ...
复制链接

扫一扫