spark大数据快速编程入门

最新推荐文章于 2024-06-14 14:31:05 发布

子春十六..

最新推荐文章于 2024-06-14 14:31:05 发布

阅读量961

点赞数 24

文章标签： hadoop 大数据分布式 spark

本文链接：https://blog.csdn.net/2301_79855823/article/details/136567279

版权

1.Hadoop生态圈相关组件

namenode：master节点，处理客户端的请求。

datanode：slave节点，存储实际数据，汇报存储信息给namenode。

client：切分文件，访问hdfs，与namenode交互，获取文件位置信息，与datanode交互，读取和写入数据。

secondary namenode：辅助namenode，分担其工作量，紧急情况下和辅助恢复namenode，但它不是namenode的热备。

2.mapreduce

特点：

1）MapReduce 易于编程
它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。
2）良好的扩展性
当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。
3）高容错性
MapReduce它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。
4）适合PB级以上海量数据的离线处理
可以实现上千台服务器集群并发工作，提供数据处理能力。

运行架构：采用Master/Slave

3.spark的特点：

1）快速：基于内存的计算比 MapReduce 快 100 倍，基于磁盘快 10 倍。
2）易用：编写一个 spark 的应用程序可以使用 Java, Scala, Python,，这就使得我们的开发非常地灵活。并且，对比MapReduce,spark 内置了 80 多个高级操作，这使得开发十分高效和简单。
3）运行范围广：spark 可以运行在 local、yarn、standalone、kubernetes 等多种平台之上。它可以访问诸如 HDFS, Cassandra, HBase, S3 等多种多样的数据源。
4）通用： spark 提供了 SparkSQL、 SparkStreaming、 GraphX、 MLlib 等一系列的分析工具。

spark与mapreduce的区别：

1、Spark的速度比MapReduce快，Spark把运算的中间数据存放在内存，迭代计算效率更高；mapreduce的中间结果需要落地，需要保存到磁盘，比较影响性能；

2、spark容错性高，它通过弹性分布式数据集RDD来实现高效容错；mapreduce容错可能只能重新计算了，成本较高；

3、spark更加通用，spark提供了transformation和action这两大类的多个功能API，另外还有流式处理sparkstreaming模块、图计算GraphX等；mapreduce只提供了map和reduce两种操作，流计算以及其他模块的支持比较缺乏，计算框架(API)比较局限；

4、spark框架和生态更为复杂，很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求；mapreduce框架及其生态相对较为简单，对性能的要求也相对较弱，但是运行较为稳定，适合长期后台运行；

5、Spark API方面- Scala: Scalable Language, 是进行并行计算的最好的语言. 与Java相比，极大的减少代码量（Hadoop框架的很多部分是用Java编写的）。

4.Linux基础操作命令：

5.热备：任何情况下，过程都不能停止，即使极短的时间.

冷备：几乎可以不考虑响应时间，一般需要人工干预.

温备：时间是比较关键的，但是短时的中断也是可以接受的.

6.数据类型：

1）整数类型：byte、short、int、long
（2）小数类型：float、double
（3）字符类型：char
（4）布尔类型：boolean

1、整数数据类型

byte：1个字节，8位，256种状态，取值范围为【-128,127】
short：2个字节，16位，65536种状态，取值范围为【-32768,32767】
int：4个字节，32位，整数类型默认是int类型，取值范围约21亿
long：8个字节，64位，long类型表示long类型常量，要加L或者l，建议加L

2、小数数据类型

float：4个字节，32位，单精度，能精确到6~7位，声明一个小数类型，要加F或者f，建议加F
double：8个字节，64位，双精度，能精确到15~16位，小数类型默认是double类型

3、字符数据类型

char：2个字节，16位，每个符号使用单引号引起来，其中前128个符号和ASCII表相同

4、布尔数据类型

boolean：占1位，有true和false2个值，一个表示真，一个表示假，一般用于表示逻辑运算

子春十六..

关注

24
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
spark大数据快速编程入门

MapReduce它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。client：切分文件，访问hdfs，与namenode交互，获取文件位置信息，与datanode交互，读取和写入数据。float：4个字节，32位，单精度，能精确到6~7位，声明一个小数类型，要加F或者f，建议加F。double：8个字节，64位，双精度，能精确到15~16位，小数类型默认是double类型。
复制链接

扫一扫