2302_78145993-CSDN博客

原创 Spark sql结构化数据文件处理

Dataset数据的表现形式，序号（3）和（4），其中序号（3）是在RDD每行数据的基础之上，添加一个数据类型（value：String）作为Schema元数据信息。Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。4理解sparksql的架构。

2024-05-11 14:49:30 381 2

原创 rdd创建2

Reducebykey（）：将相同键的前两个值传给输入函数，产生一个新的返回值，新产生的返回值与rdd中的相同键的下一个值组成两个元素，在传给输出函数。groupbykey：对具有相同键的值进行分组，可对同一组进行计数和求和等。#使用map方法查看分组后每个分组中的值和数量。#使用reducebykey（）方法将值相加。#groupbykey（）相同键分组。#使用join方法对两个rdd内连接。Keys：方法返回一个仅。#使用values方法。（）方法查找指定键的值。键值对，只对键的处理。

2024-05-10 22:58:38 799

原创 RDD创建笔记

代表一个不可变，可变分区，里面分区可并行计算的集合。通过两个方法演示：parallelizez(),makeRDD() 两种方法都是内存中存储数据。的创建：（1）通过并行化集合的创建（本地对象转分布式RDD）、使用collect()方法，将one函数作为参数。使用parallelize()方法创建RDD。用flatMap分割字符串后，在查看rdd。第二种用法：根据位置信息查看每个分区的值。特性2：rdd方法会作用在所有分区上。使用map分割字符串后，在查看rdd。数据是分布式存储的，用于分布式计算。

2024-04-02 22:25:46 343

原创 spark学习记录

随着储存成本的下降，以及新兴技术的发展，行业对非结构化数据的重视程度得到提高。spark的运行架构包括集群资源管理器，运行作业任务的工作节点每个应用的任务控制节点（Driver）和每个工作节点上负责具体任务的执行进程（Executor）其中，集群资源管理器可以是Spark自带的资源管理器，也可以是YARN或Mesos等资源管理框架。然而，MapReduce 是依赖于硬盘驱动器的，所以如果一项处理中途失败，它可以从失败处继续执行，而 Spark 则必须从头开始执行，所以 MapReduce 这样节省了时间。

2024-03-04 17:39:39 587 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人