spark
文章平均质量分 66
z小郑不会敲代码
我不会敲代码
展开
-
spark-RDD原理
缓存级别指定缓存的数据位置默认是缓存到内存上StorageLevel.DISK_ONLY # 将数据缓存到磁盘上StorageLevel.DISK_ONLY_2 # 将数据缓存到磁盘上 保存两份StorageLevel.DISK_ONLY_3 # 将数据缓存到磁盘上 保存三份StorageLevel.MEMORY_ONLY # 将数据缓存到内存 默认StorageLevel.MEMORY_ONLY_2 # 将数据缓存到内存 保存两份。原创 2024-10-10 20:18:50 · 571 阅读 · 0 评论 -
spark的rdd高级用法 --算子
rdd中封装了各种算子方便进行计算,主要分为两类转化算子 对rdd数据进行转化计算得到新的rdd,定义了一个线程任务action执行算子触发计算任务,让计算任务进行执行,得到结果触发线程执行的rdd的转化算子大部分都是从rdd中读取元素数据(rdd中每条数据),具体计算需要开发人员编写函数传递到rdd算子中rdd的执行算子则大部分是用来获取数据 collect方法就是触发算子。原创 2024-10-09 14:52:36 · 561 阅读 · 0 评论 -
spark的rdd介绍和应用
RDD是spark的一种数据模型(规定数据的存储结构和计算方法)RDD是将数据分布式存储在不同服务器的内存上,通过RDD共享不同服务器的内存数据所以Spark是基于内存进行分布式数据计算的框架。原创 2024-10-09 11:34:08 · 368 阅读 · 0 评论