m0_70195310-CSDN博客

原创大数据处理总结

2.数据管理技术:我们学习了如何使用Hadoop和Spark等技术来管理和处理大数据集合。我们还了解了分布式环境下的挑战和解决方案,如数据复制和容错机制。总的来说，本学期的大数据处理技术课程使我们了解了大数据处理的基础知识和关键技术，这些知识和技能将有助于我们在未来的工作中更好地处理和分析大数据集合。1.数据存储技术:我们学习了各种不同类型的数据库，包括关系型、非关系型和图形数据库,并了解了它们的优缺点以及最佳使用场景。在本学期的大数据处理技术课程中,我们学习了许多关于大数据处理和分析的技术和方法。

2023-06-16 15:10:51 587

原创大数据处理9

开窗函数是Spark SQL中常用的一个窗口函数，使用该函数可以在查询结果中对每个分组的数据，按照其排序的顺序添加一列行号（从1开始），根据行号可以方便地对每一组数据取前N行（分组取TOPN）。

2023-06-16 15:09:18 78

原创大数据处理8

如果没有配置hive-site.xml文件，Spark应用程序启动时，就会自动在当前目录中创建Derby元数据库metastore_db，并创建一个由spark.sql.warehouse.dir指定的数据仓库目录（若不指定，则默认启动Spark应用程序当前目录中的spark-warehouse目录）。刚开始可以先定义一个简单的Schema，然后根据业务需要逐步向Schema中添加更多的列，最终会产生多个Parquet文件，各个Parquet文件的Schema不同，但是相互兼容。读取JSON文件概述。

2023-06-16 15:07:17 87

原创大数据处理7

Spark SQL概述Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理Spark SQL功能Spark SQL可从各种结构化数据源中读取数据，进行数据分析。

2023-06-16 15:05:26 85

原创大数据处理6

RDD检查点（一）RDD检查点机制RDD的检查点机制（Checkpoint）相当于对RDD数据进行快照，可以将经常使用的RDD快照到指定的文件系统中，最好是共享文件系统，例如HDFS。当机器发生故障导致内存或磁盘中的RDD数据丢失时，可以快速从快照中对指定的RDD进行恢复，而不需要根据RDD的依赖关系从头进行计算，大大提高了计算效率。与RDD持久化的区别。

2023-06-16 15:00:51 33

原创大数据处理5

RDD分区方式Spark框架为RDD提供了两种分区方式，分别是哈希分区器（HashPartitioner）和范围分区器（RangePartitioner）。其中，哈希分区是根据哈希值进行分区；范围分区是将一定范围的数据映射到一个分区中。这两种分区方式已经可以满足大多数应用场景的需求。与此同时，Spark也支持自定义分区方式，即通过一个自定义的Partitioner对象来控制RDD的分区，从而进一步减少通信开销。引入持久化的必要性Spark中的RDD是懒加载的，只有当遇到行动算子时才会从头计算所有RD

2023-06-16 14:58:36 39

原创大数据处理4

Spark集群运行架构Spark运行架构主要由SparkContext、Cluster Manager和Worker组成，其中Cluster Manager负责整个集群的统一资源管理，Worker节点中的Executor是应用执行的主要进程，内部含有多个Task线程以及内存空间，通过下图深入了解Spark运行基本流程。

2023-06-16 14:55:29 64 1

原创大数据处理3

Spark开发环境准备工作由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。安装Spark集群前，需要安装Hadoop环境一）Standalone模式Standalone模式被称为集群单机模式。该模式下，Spark集群架构为主从模式，即一台Master节点与多台Slave节点，Slave节点启动的进程名称为Worker，存在单点故障的问题。

2023-06-16 14:51:12 40 1

原创大数据处理2

Spark的组件Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。

2023-06-16 14:48:53 58 1

原创大数据实时处理1

一、Scala简介（一）Scala概述Scala是Scalable Language的简写，是一门多范式的编程语言，由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。

2023-06-15 13:12:06 61 1