spark
文章平均质量分 93
spark
getBinary
这个作者很懒,什么都没留下…
展开
-
Spark-Streaming
Spark-Streaming基础概念流式计算微批处理常用函数updateStateByKeytransformKafka读取和写入窗口性能调优基础概念流式计算微批处理常用函数updateStateByKeytransformKafka读取和写入窗口性能调优原创 2021-06-24 19:11:03 · 127 阅读 · 1 评论 -
Spark-GraphX
Spark-GraphX基本概念SparkGraphX创建Graph对象verticesPageRankPregel基本概念首先了解下与图相关的概念图(Graph)由顶点(Vertex)和边(Edge)组成图根据边是否有方向,可以分为有向图和无向图有向图:无向图:根据是否构成环形(并不是指边和边组成了封闭的图形就叫是有环,而是指从某个顶点出发,经过若干边后可以回到该顶点),分为有环图和无环图有环图:无环图:度:一个顶点,与其连接的边的数量,就叫做该顶点的度出度:指从当前顶点指原创 2021-05-30 21:37:53 · 542 阅读 · 0 评论 -
Spark广播变量和累加器
Spark广播变量和累加器广播变量broadcast累加器广播变量broadcast累加器原创 2021-05-29 12:26:33 · 633 阅读 · 0 评论 -
Spark-SQL
Spark-SQLRDD、DataFrame、Dataset创建和转换创建DataFrame读取数据转换操作存储数据RDD、DataFrame、Dataset创建和转换创建DataFrame创建DataFrame首先需要SparkSession对象,创建方式:val spark = SparkSession.builder() .master("local[*]") .appName("SparkSQL") .getOrCreate()创建完成后,通过SparkSession对象调用原创 2021-05-27 18:47:00 · 86 阅读 · 0 评论 -
Spark算子
Spark算子++aggregatebarriercachecartesiancheckpointcoalescecollectcollectAsynccomputecontextcountcountApproxcountApproxDistinctcountAsynccountByValuecountByValueApproxdependenciesdistinctfilterfirstflatMapfoldforeachforeachAsyncforeachPartitionforeachPartiti原创 2021-05-09 10:22:49 · 321 阅读 · 7 评论 -
spark-1(安装配置)
spark-11、核心模块简介及安装配置核心模块安装配置2-运行环境Local模式Standalone模式配置历史服务高可用集群规划Yarn模式Windows模式部署模式对比端口号IDEA设置控制台不打印INFO信息1、核心模块简介及安装配置核心模块Spark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘。在绝大多数的数据计算场景中,Spark确实会比MapReduce更有优势,但是Spark是基于内存的,所以在实际的生产环境原创 2021-05-06 17:14:03 · 148 阅读 · 1 评论