Spark
文章平均质量分 75
spark
May--J--Oldhu
这个作者很懒,什么都没留下…
展开
-
Spark Graphx 项目实战(航班飞行网图分析)
航班飞行网图分析一.需要的技能点二.任务描述三.数据探索1.下载数据2.数据格式四.航班飞行网图问题分析1.构建航班飞行网图2.统计航班飞行网图中机场与航线的数量3.计算最长的飞行航线4.找出最繁忙的机场5.找出最重要的飞行航线6.找出最便宜的飞行航线五.代码实现一.需要的技能点Spark GraphX APISpark GraphX PageRankSpark GraphX Pregel二.任务描述需求概述:探索航班飞行网图数据构建航班飞行网图使用Spark GraphX完成下列任原创 2021-01-23 16:57:58 · 955 阅读 · 1 评论 -
Spark Graphx Pregel(pregel参数详解,pregel调用实现过程的详细解释)
Spark Graphx Pregel一.Pregel概述1.什么是pregel?2.pregel应用场景二.Pregel源码及参数解释1.源码2.参数详细解释(1)initialMsg(2)maxIteration(3)activeDirection(4)vprog(5)sendMsg(6)mergeMsg三.Pregel计算顶点5 到 其他各顶点的 最短距离1.图信息(1)顶点信息(2)边信息2.Pregel原理分析(1)调用pregel方法之前(2)当调用pregel方法开始(3)第一次迭代开始(4)原创 2021-01-23 15:46:06 · 2133 阅读 · 0 评论 -
Spark Graphx--连通分量
连通分量1.什么是连通分量2.计算连通分量的方法3.示例1.什么是连通分量连通分量是一个子图,其中任何两个顶点通过一条边或一系列边相互连接,其顶点是原始图顶点集的子集,其边是原始图边集的子集2.计算连通分量的方法class Graph[VD, ED] { def connectedComponents(): Graph[VertexID, ED]}3.示例即去掉了与其他顶点无关的那个顶点信息package cn.kgc.spark.graphximport org.apache.原创 2021-01-17 16:53:43 · 819 阅读 · 0 评论 -
简述PageRank算法原理(pagerank基本思想,终止点问题,陷阱问题,Spark Graphx调用pagerank API)
PageRank算法原理一.PageRank基本概念1.什么是pagerank?2.pagerank基本思想二.PageRank算法1.基本原理2.问题(1)终止点问题(2)陷阱问题3.完整的PageRank算法(1)完整的PageRank算法思想(2)完整算法数据说明(3)算法公式三.Spark Graphx调用pagerank API四.其他补充1.PR值的决定因素2.获得高pagerank值的方法一.PageRank基本概念1.什么是pagerank?PageRank对网页排名的算法,曾是Goo原创 2021-01-17 16:45:52 · 6308 阅读 · 0 评论 -
项目实战—教育平台大数据分析系统
项目实战—教育平台大数据分析系统一.数据准备1.日志数据字段数据字典2.日志文件test.log二.项目需求三.项目介绍项目需求数据源技术栈四.完整代码一.数据准备1.日志数据字段数据字典链接:https://pan.baidu.com/s/1r4x_DnP4OyNF2kwmjfJMgQ提取码:mbvq2.日志文件test.log链接:https://pan.baidu.com/s/1vPYydqzSKiHOY7AGyZVLvw提取码:fukb二.项目需求使用Spark完成下列日志分析项目原创 2021-01-16 15:38:50 · 1966 阅读 · 2 评论 -
使用idea练习Spark SQL经典练习50题
使用idea练习Spark SQL经典练习50题一.准备文件(1)课程表(course.txt)(2)成绩表(score.txt)(3)学生表(student.txt)(4)教师表(teacher.txt)二.创建DataFrame1.创建SparkSession2.创建表的样例类3.创建RowRDD4.创建DataFrame三.练习题代码四.练习题过程及其对应运行结果(1)查询"01"课程比"02"课程成绩高的学生的信息及课程分数(2)查询"01"课程比"02"课程成绩低的学生的信息及课程分数(3)查询平原创 2021-01-09 17:40:16 · 2021 阅读 · 0 评论 -
Spark Graphx图的算子(属性算子,结构算子,join算子,计算用户粉丝数量,joinVertices和outerJoinVertices的区别)
图的算子(属性算子,结构算子,join算子,计算用户粉丝数量,joinVertices和outerJoinVertices的区别)一.图的算子1.属性算子(1)mapVertices(2)mapEdges(3)mapTriplets2.结构算子(1)reverse(2)subgraph3.Join算子(1)joinVertices(2)outerJoinVertices(3)Spark GraphX关联操作之joinVertices和outerJoinVertices的区别一.图的算子1.属性算子类似原创 2020-11-26 19:23:59 · 511 阅读 · 0 评论 -
Graphx API(创建graph对象,属性图社交网络关系(找出大于30岁的用户,打call超5次),查看图的相关信息)
Graphx API(创建graph对象,属性图社交网络关系,查看图的相关信息)一.Graphx API1.直接创建graph对象2.通过加载文件创建graph二.属性图1.属性图应用示例一2.属性图应用示例二3.查看图信息(1)顶点数量(2)边数量(3)度、入度、出度一.Graphx APIGraph[VD,ED]VertexRDD[VD]EdgeRDD[ED]EdgeTriplet[VD,ED]Edge:样例类VertexId:Long的别名示例:创建Graph1.直接创建grap原创 2020-11-26 17:32:18 · 888 阅读 · 0 评论 -
图的基本概念以及Spark Graphx基本概念
图的基本概念以及Spark Graphx基本概念一.图基本概念,术语以及表示方法1.为什么需要图计算2.图(Graph)的基本概念3.图的术语(1)顶点(Vertex)(2)边(Edge)(3)有向图(4)无向图(5)有环图(6)无环图(7)度(8)出度(9)入度4.图的经典表示法(邻接矩阵)二.Spark Graphx1.Spark GraphX 简介(1)Graphx是什么?(2)Graphx特点2.GraphX核心抽象一.图基本概念,术语以及表示方法1.为什么需要图计算许多大数据以大规模图或网原创 2020-11-26 14:27:43 · 390 阅读 · 0 评论 -
Spark SQL精华及与Hive的集成(spark sql原理,API,操作外部源数据,SQL函数)
Spark SQL精华及与Hive的集成一.Spark SQL原理1.SQL on Hadoop2.spark的前身:shark3.Spark SQL架构4.Spark SQL运行原理5.Catalyst优化器(1)逻辑计划(2)优化(3)物理计划二.Spark SQL API1.Dataset(1)基本概念(2)使用Case Class创建Dataset2.Dataframe(1)基本概念(2)RDD与DataFrame对比(3)创建DataFrame及基本操作(4)RDD->DataFrame方式原创 2020-11-25 09:56:26 · 579 阅读 · 0 评论 -
Spark分布式计算原理(RDD依赖关系,RDD优化,spark-submit)
Spark分布式计算原理一.Spark RDD依赖关系1.Spark WordCount运行原理2.为什么需要划分Stage3.RDD依赖关系4.DAG工作原理5.Spark shuffle二.RDD优化1.RDD持久化(1)RDD缓存机制(2) 缓存策略StorageLevel(3)缓存应用场景(4)使用注意事项(5)检查点:类似快照(6)检查点与缓存的区别2.RDD共享变量(1)广播变量(2)累加器3.RDD分区设计4.数据倾斜三.加载常用外部数据源1.装载CSV数据源(1)使用SparkContex原创 2020-11-19 19:17:54 · 370 阅读 · 0 评论 -
Spark基本概念,RDD算子创建与使用
(一)spark基础一.为什么使用Spark1.MapReduce编程模型的局限性2.Spark简介3.Spark优势4.Spark技术栈5.Spark-shell:spark自带的交互式工具6.Spark架构设计7.Spark架构核心组件二.Spark API三.Spark RDD1.Spark RDD概念2.RDD的五大特性3.RDD与DAG4.RDD编程流程四.RDD创建1.使用集合创建RDD2.通过加载文件产生RDD3.创建PairRDD是方法4.其他创建RDD的方法5.RDD创建方式的最佳实战五.原创 2020-11-16 12:14:32 · 430 阅读 · 0 评论