自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark基础

方法定义一个函数replace对对象中的id字段进行转换,将字段值替换。例如:可通过map()方法对一个元素进行 平方运算。对id字段进行升序和降序排序。1.通过linux本地文件创建RDD。将两个集合的元素两两组合,笛卡尔积。获取N条记录,以列表形式展示。用于将两个RDD合并成一个。返回数据集中所有元素个数。查询引擎,让用户可以通过。查询年龄为55的数据。找出两个RDD的交集。找出两个RDD的补集。用于RDD的数据去重。

2024-05-11 17:34:28 498 2

原创 spark编程基础

subtract()方法用于将前一个RDD中在后一个RDD出现的元素删除,可以认为是求补集的操作,返回值为前一个RDD去除与后一个RDD相同元素后的剩余值所组成的新的RDD。union()方法是一种转换操作,用于将两个RDD合并成一个,不进行去重操作,而且两个RDD中每个元素中的值的个数、数据类型需要保持一致。map()转换,filter()过滤,flatMap()切分,union()合并,groupByKey()分组。外部:textFile(),内部:parallelize(),makeRDD()

2024-04-03 14:58:24 283 1

原创 Spark概述极其运行模式

编程模型:Spark提供了更为灵活的编程模型,支持多种编程语言(如Scala、Java、Python和R),并且提供了丰富的高级API(如Spark SQL、Spark Streaming和MLlib等),使得开发者可以更方便地进行数据处理和分析。3.半结构化数据:就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

2024-03-04 15:21:05 698 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除