spark
文章平均质量分 92
写spark的一些知识点
超帅的烟火
在读研究生一枚,立志要用博客记录自己的学习
展开
-
idea上创建spark方式
一,只做一次的事情hadoop,spark,scala,maven,scala插件,1,下载hadoop,scala,spark,jdk。版本要适配,下面为一组搭配。下载后解压,然后配置环境变量hadoop-2.7.0scala-2.11.12spark-2.4.0JDK 1.8.0配置scala 环境变量 和 配置JDK环境变量 一样 系统变量新增 : SCALA_HOME 值 C:\Program Files (x86)\scala (scala安...原创 2021-10-15 21:12:30 · 4081 阅读 · 0 评论 -
spark分区
一,前言1,概念输入文件可能是一个或者多个文件file。 而一个文件是划分成多个文件块来处理的,文件块就是block。 spark读取文件的时候会设置解析文件的格式,一般是将若干个Block合并成一个输入分片,称为InputSplit。注意InputSplit不能跨越文件。 随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。 Task经过机器的处理产生结果放到partition,Task和partition不是绝对相等。Task个数相当于任务数个数...原创 2021-08-06 09:38:31 · 492 阅读 · 0 评论