spark
学习spark使用,上传spark的相关文档,代码。
IT change the world
随着风不断前行
展开
-
sparkSql分析函数和窗口函数(rows/range)的语法及案例
sparkSql分析函数(rows/range)的语法及案例 sum、max、 min、 count、 avg等聚合函数 lead、 lag等比较函数 rank等排名函数2.1 rank()排名函数案例:2.2lag() ,lead() 函数使用及案例:4.3range()和rows()的使用及案例: rows/range: 窗口子句,是在分组(partition by)后,表示组内的子分组(也即窗口),是分析函数的计算范围窗口原创 2020-04-29 22:47:36 · 3323 阅读 · 0 评论 -
RDD与DataFrame与Dataset之间的关系及转换关系
RDD与DataFrame与Dataset之间的转换关系:原创 2020-04-26 20:48:45 · 438 阅读 · 0 评论 -
Spark内置算法:Connected Components算法解析及案例和Triangle Counting算法解析及案例
1.Connected Components含义:连通分量算法用图的最低编号顶点的ID标记图的每个连通分量。例如,在社交网络中,连接的组件可以近似于群集。案例:package sparkGraphXimport org.apache.spark.graphx.{GraphLoader, VertexId, VertexRDD}import org.apache.spark.{Sp...原创 2020-04-20 17:20:18 · 1224 阅读 · 0 评论 -
Spark复习十一:内置图算法,PageRank算法的解析以及简单案例
1.PageRank算法描述:1.1用1/N的页面排名值初始化每个顶点,N是图中顶点总数和。1.2循环: 每个顶点,沿着出边发送PR值1/M,M为当前顶点的出度。 当每个顶点从相邻顶点收到其他发送的PR值后,合计这些PR值后作为当前当前顶点新的PR值。 图中顶点的PR与上一个迭代相比没有显著变化,则退出迭代...原创 2020-04-20 16:00:59 · 904 阅读 · 0 评论 -
Spark复习十:图聚合操作(aggregateMessages )和 Pregel 和 Pregel API以及操作案例分析
1.图聚合操作aggregateMessages:1.1 聚合操作:aggregateMessages:许多图分析任务中的一个关键步骤是聚集每个顶点的邻域信息,在GraphX中最核心的聚合操作就是aggregateMessages.它主要功能是向邻边发消息,合并邻边收到的消息.1.2.sendMsg和mergeMsg:sendMsg:sendMsg 函数以EdgeCont...原创 2020-04-19 21:16:07 · 1133 阅读 · 0 评论 -
Spark复习九:Spark GraphX 入门以及Spark图聚合操作相关案例
1.1 图的基本概念:定义:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。作用:图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面常用应用:在地图应用中找到最短路径,基于与他人的相似度图,推荐产品。1.2Spark GraphX:GraphX是Spark中用于图形和图形并行计算的新组件。...原创 2020-04-19 20:54:04 · 734 阅读 · 0 评论 -
Spark复习八:简述Spark运行流程以及Spark分区以及简述SparkContext
1.简述Spark运行流程:1.构建Spark Application的运行环境,启动SparkContext2. SparkContext向资源管理器(可以是Standalone, Mesos, Yarm)申请运行Executor资源, 并启动StandaloneExecutorbackend3. Executor向SparkContext申请Task4. SparkConte...原创 2020-04-18 21:47:05 · 1173 阅读 · 0 评论 -
Spark复习七:Spark 连接并操作Mysql
1.步骤: 1.spark 连接并操作mysql 2.退出已有连接的spark:scala> :q 3.加载mysql的jar1.连接Mysql:[root@spark1spark-2.4.5-bin-hadoop2.7]# spark-shell --jars /home...原创 2020-04-18 21:24:11 · 377 阅读 · 0 评论 -
Spark复习六:DataSet操作
dataSet操作:scala> case class Customer(id:Int,firstName:String,lastName:String,homePhone:String,workPhone:String,address:String,city:String,state:String,zipCode:String)defined class Customerscal...原创 2020-04-18 21:12:30 · 361 阅读 · 0 评论 -
Spark复习五:DataFrame API操作
1:直接读取文件:scala> val userDF=spark.read.format("csv").option("header","true").option("delimiter",",").load("file:///home/data/users.csv")userDF: org.apache.spark.sql.DataFrame = [user_id: string, ...原创 2020-04-18 20:54:57 · 552 阅读 · 0 评论 -
Spark复习四:SparkCore重点知识总结
1:RDD 是什么? RDD 即弹性分布式数据集(Resilient Distributed DataSet),它具备像MR等数据流模型的容错性,能在并行计算中高效地进行数据共享进而提升计算性能。RDD中提供了一些转换操作,在转换过程中记录“血缘”关系,但在RDD中并不会存储真正的数据,只是对数据和操作的描述。 RDD 是只读的、分区记录的集合。RDD只能基本于稳定物理存储中的...原创 2020-04-18 20:42:24 · 276 阅读 · 0 评论 -
spark复习三:SparkJoin操作
1:准备customers.csvscala> val dfCustomers=spark.read.format("csv").option("delimiter",",").option("quote","\"").option("escape","\"").load("file:///home/data/customers.csv")dfCustomers: org.apache...原创 2020-04-18 20:37:57 · 550 阅读 · 0 评论 -
spark复习二:Broadcast广播变量和accumulator累加器
1.shared variable共享变量:scala> val kvphone=sc.parallelize(List((1,"iphone"),(2,"xiaomi"),(3,"oppo"),(4,"huawei")))kvphone: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[0] at pa...原创 2020-04-17 21:22:16 · 372 阅读 · 0 评论 -
spark复习一:sparkRDD的理论及相关操作
1.sparkRDD简介: Spark的核心是RDD(Resilient Distrubuted Dataset),弹性分布式数据集。由AMPLab实验室提出的,属于分布式内存系统的数据集应用。RDD能与其系统兼容,可以导入外部存储系统的数据集:HDFS、HBase或其他hadoop数据源。2.RDD的特性: RDD运算类型 说明 ...原创 2020-04-17 21:05:13 · 273 阅读 · 0 评论 -
spark配置连接hive
1.拷贝hive的hive-site.xml文件到spark的conf目录下2.修改spark中hive-site.xml文件添加以下:<configuration><property> <name>hive.metastore.uris</name><value>thrift://主机名或IP地址:9083</...原创 2020-04-13 15:08:19 · 921 阅读 · 0 评论 -
解决运行Spark-shell,出现报错Unable to load native-hadoop library for your platform的问题
1.启动spark后,运行bin/spark-shell会出现一个警告WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable2.解决办法: (1)第一种:在linux环境...原创 2020-04-13 15:02:35 · 1746 阅读 · 0 评论