Apache Spark
Galaxy银河
来自浙江温州的一位初一学生。2022年底开始发布文章。兴趣爱好是c++,有时也学学python和Java。2023年中,开始研究计算机人工智能,接触docker,git和restful等。文章曾入选《云原生领域内容榜》第23名,《C/C++领域内容榜》第4名,也曾登上《前沿技术领域内容榜》第2名,《人工智能领域内容榜》第24名。文章还曾被武汉开发者社区、华为开发者联盟HarmonyOS专区、华为云开发者联盟、西安城市开发者社区、云原生技术专区和AI技术专区收录。
展开
-
SparkContext 与 SparkContext 之间的区别是什么
而 SparkSession 是 Spark 2.0 新增的 API,它是对 SparkContext、SQLContext 和 HiveContext 的封装,提供了统一的编程接口和数据访问方式。SparkContext 是 Spark 的入口点,它是所有 Spark 应用程序的主要接口,用于创建 RDD、累加器、广播变量等,并管理与 Spark 集群的连接。因此,在 Spark 2.0 及以上版本中建议使用 SparkSession,而在之前版本中使用 SparkContext。原创 2023-10-15 08:18:33 · 509 阅读 · 0 评论 -
Apache Spark 中的 RDD是什么
RDD是Resilient Distributed Dataset的缩写,是Apache Spark中的一个关键概念。RDD是一种分布式的内存抽象,用于将数据划分为不同的片段以进行并行计算。RDD是一个只读的数据集,可以分布在集群的不同节点上,支持多次读取并进行操作。RDD存在于内存中,可以高效地进行迭代计算,因此适用于对数据进行多次迭代的场景。RDD支持多种操作,例如转换操作和动作操作,可以完成诸如过滤、映射、聚合等操作。RDD还具有容错性,可以在节点故障发生时自动重建。原创 2023-10-15 08:16:26 · 620 阅读 · 0 评论 -
HDFS:Hadoop文件系统(HDFS)
HDFS将大文件切割成小的数据块(默认大小为128MB),并将其分散存储在集群的各个节点上。每个数据块都有多个备份,以保证数据的冗余和可靠性。当某个节点出现故障,HDFS能够自动地进行容错和恢复。Hadoop文件系统(HDFS)是一个分布式文件系统,主要用于存储和处理大规模的数据集。HDFS是Apache Hadoop的核心组件之一,能够支持上千个节点的集群,并能够处理PB级别的数据。HDFS提供了多种API,包括Java API、C++ API和命令行工具,以方便用户访问和操作数据。原创 2023-09-08 22:00:03 · 128 阅读 · 0 评论 -
Apache Spark:了解Apache Spark,Hadoop Distributed File System (HDFS),Cassandra、HBase等
HBase是一个分布式的、面向列的NoSQL数据库系统,被设计为在大规模数据集上运行,特别是存储超过硬盘容量的数据。,并且可以处理大型文件。它的设计是为了能够在廉价的硬件上运行,可以处理几百个节点的集群。它基于Google的Bigtable和Amazon的Dynamo论文设计,并支持分布式集群部署,可以处理大量数据和高并发访问。它最初是加州大学伯克利分校AMPLab于2009年开发的项目之一,旨在解决MapReduce模型的缺陷,提高大数据处理的速度和效率,同时支持更多的数据处理方式。原创 2023-09-08 21:58:38 · 77 阅读 · 0 评论 -
python三方库Apache Spark,举例介绍基本的使用
Apache Spark 是一个快速、通用、基于内存的大数据处理系统,它可以用来处理大规模数据集。它提供了高级别的API,以便用户可以用 Java、Scala、Python 和 R 等语言编写 Spark 应用程序。Spark 可以在单个节点上运行,也可以在大规模集群上运行,通过分布式计算来加速数据处理。需要注意的是,在实际使用 Spark 时,需要考虑节点数量、调优等问题,以充分利用分布式计算的优势。,对文件中的每行文本进行切分并计算单词出现次数,最后输出结果。原创 2023-08-04 12:49:46 · 229 阅读 · 0 评论 -
Apache Spark 的基本概念和在大数据分析中的应用
Apache Spark是一种快速、通用、可扩展的大数据处理引擎,用于大规模数据处理任务,如批处理、交互式查询、实时流处理、机器学习和图形处理等。总之,Apache Spark是一种强大的大数据处理引擎,可以帮助企业快速高效地处理和分析海量数据,从而获得更深入的数据洞察和商业价值。1. 速度:Spark使用In-Memory计算技术,将计算结果存储在内存中,避免了频繁的磁盘读写操作,因此相对于其他大数据处理引擎,它的性能更高。原创 2023-07-31 18:10:40 · 255 阅读 · 0 评论