Spark小白
内存计算Spark
温暖会追上来的.
这个作者很懒,什么都没留下…
展开
-
SparkSQL基本操作----作业三
题目:编程实现利用DataFrame 读写MySQL 的数据 在 MySQL 数据库中新建数据库sparktest,再创建表 employee,添加两条记录, 如下图: 配置Spark, 通过JDBC连接数据库MySQL, 编程 实现 利用 DataFrame 插入 如下图所示的两行 数据 到 MySQL 中, 最后 打印出age的最大值和age 的总和。 表 6- 3 employee...原创 2020-04-27 15:54:18 · 1380 阅读 · 0 评论 -
SparkSQL基本操作----作业二
题目:编程 实 现将 RDD 转换 为 DataFrame 源 文件 内容 如下( 包含 id, name, age):1, Ella, 36 2, Bob, 29 3, Jack, 29 请将 数据 复制 保存 到 Linux 系统 中, 命名为 employee.txt, 实现 从 RDD 转换 得到 DataFrame, 并按“ id: 1, name: Ella, ...原创 2020-04-27 15:47:23 · 1889 阅读 · 1 评论 -
SparkSQL基本操作----作业一
题目:Spark SQL 基本 操作 将 下列 JSON 格式 数据 复制 到 Linux 系统 中, 并 保存 命名为 employee. json。 { "id": 1 , "name":" Ella" , "age": 36 } { "id": 2, "name":" Bob","age": 29 } { "id": 3 , "name":" Jack"," age": 29...原创 2020-04-27 15:44:26 · 6702 阅读 · 0 评论 -
sparkGraphX 图操作:pregel(加强的aggregateMessages)
目录1、Pregel API:2、代码实现:使用pregal实现找出源顶点到每个节点最小花费使用pregel实现找出源节点到每个节点的最大深度1、Pregel API:图本身就是内在的递归的数据结构,因为一个顶点的属性可能依赖于其neighbor,而neighbor的属性又依赖于他们的neighbour。所以很多重要的图算法都会迭代计算每个顶点的属性,直到达到一个稳定状态。...原创 2020-04-16 10:26:21 · 1111 阅读 · 0 评论 -
sparkGraphX 图操作:(joinVertices、outerJoinVerticies)
一、解释1、 joinVertices/outerJoinVerticies:有时候需要从外部的RDD中跟Graph做数据的连接操作。例如:外部的user属性想要跟现有的graph做一个合并,或者想把图的顶点的属性从一个图迁移到另一个图中。这些可以用join来完成。def joinVertices[U](table: RDD[(VertexId, U)])(map: (VertexI...原创 2020-04-15 10:35:47 · 822 阅读 · 0 评论 -
sparkGraphX 图操作:(subgraph 、groupEdges 、reverses)
目录一、解释1. subgraph:2.reverse:3. groupEdges:4.mask:二、代码综合实现:一、解释1. subgraph:方法的定义:def subgraph(epred: EdgeTriplet[VD, ED] => Boolean = (x => true),vpred: (Verte...原创 2020-04-15 10:32:14 · 1956 阅读 · 0 评论 -
sparkGraphX 图操作:GranphX的map操作(mapVertices、mapEdges、mapTriplets)
GranphX的map操作:import org.apache.spark.graphx.{Edge, Graph, VertexId}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object MapGraphX { def main(args:...原创 2020-04-15 10:17:04 · 1720 阅读 · 0 评论 -
sparkGraphX 图操作:aggregateMessages聚合计算每个节点与根节点的距离
这里是一些代码的详细解释,还有一个老师布置的章节作业(在他的代码上进行优化算法)先写一个简单代码解释一下aggregateMessages聚合的作用吧;这是intalliji中aggregateMessages的方法解释:注意一下参数的传入和结果的形式就可以很好的应用了。 def aggregateMessages[A](sendMsg : scala.Function1[...原创 2020-04-19 20:26:50 · 850 阅读 · 0 评论 -
完全分布式集群搭建Spark环境并运行“Hello World”
目录idea安装Spark之前一:windows端环境设置1:安装javaJDK1.82:环境设置2.1:环境变量3:安装scala2.11.12(注意不要安装最新或最高版本,视你的操作系统的Idea版本,否则会出现版本冲突)3.1下载安装2.11.12(百度一下,有N多下载地址)3.3系统变量设置4:安装MAVEN4.1安装maven3.6.1(不要...原创 2020-02-25 21:58:10 · 740 阅读 · 0 评论