python和pyspark_1 了解Spark和PySpark

最新推荐文章于 2024-08-31 22:36:43 发布

周树本

最新推荐文章于 2024-08-31 22:36:43 发布

阅读量616

点赞数

文章标签： python和pyspark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42350305/article/details/112042186

版权

本文介绍了Spark的技术特点，包括其易用性、速度、通用性、可扩展性和容错性，并强调了它在大数据处理中的优势。内容涵盖了Spark的执行过程、RDD、DataFrame以及Catalyst优化器，旨在帮助读者掌握如何利用Python和Spark进行大规模数据分析与挖掘，包括处理结构化和非结构化数据、创建机器学习模型等。

摘要由CSDN通过智能技术生成

大数据技术一览

1 hadoop:hdfs、yarn、mapreduce、spark和hive

2 数据序列化：序列化大数据的二进制格式(Avro,Thrift,Protocol Buffers,SequenceFile)

3 列存储：RCFile、ORC、Parquet

4 消息系统：kafka

5 NoSQL:HBase、Cassandra

6 分布式SQL查询引擎：Impala、Presto、Apache Drill

Spark的技术特点

(1)使用方便，提供了各种语言的API接口，目前有Scala、Java、Python、R四种语言支持；

(2)快速：基于内存计算，减少I/O延迟，显著减少作业执行时间；有更为先进的作业执行引擎。

(3)通用：Spark为各种类型的数据处理作业提供一个统一的集成平台，可以用于批处理、交互性分析、流处理、机器学习和图计算。而Hadoop MapReduce只适合用于批处理。使用Spark，可以使用一个集成的框架来创建一个包含多个不同类型任务的数据处理流水线，不用为了多个不同类型的数据处理任务而学习不同框架或者部署单独的集群了。使用Spark，有助于降低运维的困难度，减少代码和数据的重复。

(4)可扩展：Spark集群的数据处理能力可以通过增加更多集群节点的方式得以提升。Spark的这个特性对于应用程序来说是透明的，Spark集群增加节点的时候无需改动任何代码。

(5)容错性：Spark可以自动处理集群中的节点故障(应用程序的开发者不必在应用中处理异常情况，可以简化应用程序的代码)，一个节点故障可能导致性能下降但是不会导致应用程序无法运行。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。