- 博客(3)
- 收藏
- 关注
原创 Spark基础
方法定义一个函数replace对对象中的id字段进行转换,将字段值替换。例如:可通过map()方法对一个元素进行 平方运算。对id字段进行升序和降序排序。1.通过linux本地文件创建RDD。将两个集合的元素两两组合,笛卡尔积。获取N条记录,以列表形式展示。用于将两个RDD合并成一个。返回数据集中所有元素个数。查询引擎,让用户可以通过。查询年龄为55的数据。找出两个RDD的交集。找出两个RDD的补集。用于RDD的数据去重。
2024-05-11 17:34:28 498 2
原创 spark编程基础
subtract()方法用于将前一个RDD中在后一个RDD出现的元素删除,可以认为是求补集的操作,返回值为前一个RDD去除与后一个RDD相同元素后的剩余值所组成的新的RDD。union()方法是一种转换操作,用于将两个RDD合并成一个,不进行去重操作,而且两个RDD中每个元素中的值的个数、数据类型需要保持一致。map()转换,filter()过滤,flatMap()切分,union()合并,groupByKey()分组。外部:textFile(),内部:parallelize(),makeRDD()
2024-04-03 14:58:24 283 1
原创 Spark概述极其运行模式
编程模型:Spark提供了更为灵活的编程模型,支持多种编程语言(如Scala、Java、Python和R),并且提供了丰富的高级API(如Spark SQL、Spark Streaming和MLlib等),使得开发者可以更方便地进行数据处理和分析。3.半结构化数据:就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
2024-03-04 15:21:05 698 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人