Spark
文章平均质量分 88
zhuluo-lin的spark学习记录
猪猡猪猡猪
猪猡猪猡猪
展开
-
GraphX官网例子Analytics分析
然后终止程序的运行。options.remove("vertexStorageLevel").map(StorageLevel.fromString(_)).getOrElse(StorageLevel.MEMORY_ONLY) 从options中移除键为“vertexStorageLevel”的选项,并将其值转换为StorageLevel枚举类型的实例。使用模式匹配,case Array(opt,v)=> (opt,v),将键值对数组中的第一个元素作为键,第二个元素作为值,构成元组。原创 2023-07-14 10:46:55 · 147 阅读 · 0 评论 -
GraphX官网例子AggregateMessagesExample分析
Map函数中,对于每一个三元组triplets(源顶点、边、目标顶点),它检查源顶点的属性(即关注者的年龄)是否大于目标顶点的属性(被关注者的年龄)。使用模式匹配将元组解构为(count,totalAge),最后计算平均年龄,即将总年龄除以关注者的数量,得到的结果将作为新的值。最终得到的图的类型为Graph[Double,Int],其中,Double是顶点属性的类型,Int是边属性的类型。这段代码用于计算年龄较大的关注着的平均年龄,它基于先前计算得到的年龄较大的关注着的数量和总年龄。原创 2023-07-14 10:40:51 · 129 阅读 · 0 评论 -
使用Intellij IDEA编写Spark应用程序
这里需要注意,在Intellij Idea启动时,会执行“dump project structure from sbt”的操作,也就是把sbt所需要的项目结构从远程服务器拉取到本地,在本地会生成sbt所需要的项目结构。由于是从国外的远程服务器下载,所以,这个过程很慢,笔者电脑上运行了15分钟。这个过程没有结束之前,上图中的“File->New”弹出的子菜单是找不到Scala Class这个选项的。但是,要使用idea来开发spark应用程序,还需要对idea进行个性化的配置。原创 2023-07-14 10:38:05 · 475 阅读 · 0 评论 -
使用sbt编写Spark独立应用程序
使用Scala编写的程序需要使用sbt进行编译打包,相应的,java程序使用Maven编译打包,而Python程序通过spark-submit直接提交。(访问sbt版本时,sbt将通过访问国外网站下载需要的内容,所以如果没有开代理的话,可能会出现卡住的情况,建议开启梯子后执行此步)利用SparkContext对象中的textFile()函数,读取了包含文本内容的文件,并将其转换为RDD对象。原因也和先前查看sbt版本遇到的问题一样,在sudo的权限下,系统的环境变量发生了变化,导致找不到java命令。原创 2023-07-14 10:24:34 · 528 阅读 · 0 评论