- 博客(3)
- 收藏
- 关注
原创 spark
通过Parquet文件创建:val dfUsers = spark,read.local("/user/root/sparkSql/users.parquet")7.selectExpr():对指定字段进行特殊处理。
2024-05-15 13:57:46 216
原创 spark
Resilient Distributed Dataset—有弹性的分布式的数据集合;里面没有真正的数据,是一个抽象的、不可变得、被分区的集合,集合内的元素可以被并行的操作。
2024-05-13 14:00:15 397 1
原创 spark概述
MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组spark:Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。拥有Hadoop MapReduce所具有的优点;
2024-03-04 17:33:40 979
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人