自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark sql结构化数据文件处理

Dataset数据的表现形式,序号(3)和(4),其中序号(3)是在RDD每行数据的基础之上,添加一个数据类型(value:String)作为Schema元数据信息。Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。4理解sparksql的架构。

2024-05-11 14:49:30 381 2

原创 rdd创建2

Reducebykey():将相同键的前两个值传给输入函数,产生一个新的返回值,新产生的返回值与rdd中的相同键的下一个值组成两个元素,在传给输出函数。groupbykey:对具有相同键的值进行分组,可对同一组进行计数和求和等。#使用map方法查看分组后每个分组中的值和数量。#使用reducebykey()方法将值相加。#groupbykey()相同键分组。#使用join方法对两个rdd内连接。Keys:方法返回一个仅。#使用values方法。()方法查找指定键的值。键值对,只对键的处理。

2024-05-10 22:58:38 799

原创 RDD创建笔记

代表一个不可变,可变分区,里面分区可并行计算的集合。通过两个方法演示:parallelizez(),makeRDD() 两种方法都是内存中存储数据。的创建:(1)通过并行化集合的创建(本地对象转分布式RDD)、使用collect()方法,将one函数作为参数。使用parallelize()方法创建RDD。用flatMap分割字符串后,在查看rdd。第二种用法:根据位置信息查看每个分区的值。特性2:rdd方法会作用在所有分区上。使用map分割字符串后,在查看rdd。数据是分布式存储的,用于分布式计算。

2024-04-02 22:25:46 343

原创 spark学习记录

随着储存成本的下降,以及新兴技术的发展,行业对非结构化数据的重视程度得到提高。spark的运行架构包括集群资源管理器,运行作业任务的工作节点每个应用的任务控制节点(Driver)和每个工作节点上负责具体任务的执行进程(Executor)其中,集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架。然而,MapReduce 是依赖于硬盘驱动器的,所以如果一项处理中途失败,它可以从失败处继续执行,而 Spark 则必须从头开始执行,所以 MapReduce 这样节省了时间。

2024-03-04 17:39:39 587 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除