spark一些常识整理（一）

最新推荐文章于 2023-12-29 16:15:00 发布

魂落忘川犹在川

最新推荐文章于 2023-12-29 16:15:00 发布

阅读量230

点赞数

分类专栏：大数据 spark 文章标签： spark RDd

本文链接：https://blog.csdn.net/weixin_43345864/article/details/84330092

版权

大数据同时被 2 个专栏收录

71 篇文章 0 订阅

订阅专栏

spark

8 篇文章 0 订阅

订阅专栏

前言：最近用了一段时间spark，略有所得，借此平台，互相学习！共勉！

spark是什么？有什么特点？

spark是基于内存计算的大数据框架引擎，有以下4个特点
1.速度快：主要通过DAG Scheduler 这个有向无环图，实现迭代式计算
2.易用性：支持多种语言，如Java、scala、Python、R、SQL等
3.通用性：统一实现了core 、sql 、 Streaming 、 Mlib 图计算，底层实现RDD。
4.兼容性：兼容Hadoop的一些组件，如Hbase、hive、HDFS、yarn等，也可以与数据库一起使用

在这里我也运行了一个经典的小程序 π 值计算

在linux中的spark路径下/usr/local/spark/bin下输入下面的命令

./spark-submit  \
--class org.apache.spark.examples.SparkPi  \
--master spark://node01:7077 \
--executor-memory 512m \
--total-executor-cores 2 /usr/local/spark/lib/spark-examples-1.6.3-hadoop2.6.0.jar 50
注：total-executor-core 2 起两个worker 运行的jar包路径   次数

可以看到运行结果是50次计算π值的平均值

上面讲了spark的底层都是RDD，那么RDD又是什么？有什么特性？

RDD是一个不可变，可分区，元素可以并行计算的弹性分布式数据集，并且是spark的最基本的数据抽象。
简单来说就是：RDD是一个逻辑概念，一个RDD有多个分区，一个分区在executor节点上执行时，它就是一个迭代器，
一个RDD有多个分区，一个分区数据坑定在一台机器上，但是
一台机器有多个分区，我们在操作时就是拿分布在多台机器上的数据，而RDD相当于一个代理，对RDD的操作就是对分区的操作，也就是对每台机器上的迭代器操作，因为迭代器保存着我们要操作的数据。