Spark
文章平均质量分 75
编程小白呀
这个作者很懒,什么都没留下…
展开
-
浅谈Spark的RDD、部署模式
通过源码可以看出cache()是persist()的简化方式,调用persist的无参版本,也就是调用persist(StorageLevel.MEMORY_ONLY),cache只有一个默认的缓存级别MEMORY_ONLY,即将数据持久化到内存中,而persist可以通过传递一个 StorageLevel 对象来设置缓存的存储级别。Spark 的缓存具有容错机制,如果一个缓存的 RDD 的某个分区丢失了,Spark 将按照原来的计算过程,自动重新计算并进行缓存。YARN是Hadoop中的资源管理器。原创 2023-08-21 22:08:24 · 652 阅读 · 0 评论 -
【Spark练习】val、var、range等基本操作练习
要求1: 将操作结果进行截图,并上传到gitee中要求2:编写readme.md。原创 2023-04-28 16:11:02 · 304 阅读 · 0 评论 -
【Spark练习】List和Set练习
对于不可变List,可以模拟添加、移除、更新操作,但这些操作都会返回一个新的集合,原来的集合不会发生改变;可使用:: 、 :::、concat、filter、map方法,不能使用append方法。对可变List 可进行修改、添加、移除一个元素,不会返回新的集合。无:: 、 :::、concat 方法,可使用append、map 、filter 方法。原创 2023-04-28 16:09:26 · 233 阅读 · 0 评论 -
【问题】Could not calculate build plan: Plugin org.apache.maven.plugins
发现pom文件报错,问题可能都是网络下载问题,导致jar包下载有问题若发现有lastupdated文件,则删除repository文件夹,重新下载maven->update project ,注意勾选 force选项!即使使用阿里云仍然显示lastupdated,则开cmd,到达project 路径,通过mvn install即可解决(最终解决)cd 项目存放路径。原创 2023-04-28 16:06:41 · 1780 阅读 · 0 评论 -
【Spark小练习】单词计数
【代码】【Spark小练习】单词计数。原创 2023-04-28 16:03:47 · 64 阅读 · 0 评论 -
【Spark练习】RDD分区操作
spark 分区操作练习原创 2023-04-28 15:59:33 · 478 阅读 · 0 评论 -
【Spark练习】宽、窄依赖
spark算子 reduceByKey和GroupByKey原创 2023-04-28 15:46:40 · 357 阅读 · 0 评论