![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 87
羽落风起
乐观积极的生活,用梦想浇灌希望的种子,不管风和日,还是狂风暴雨,活出自己的色彩。
展开
-
spark(八):SparkSql
文章目录说明资料优势运行方式优化器及执行计划整体流程自定义优化器自定义执行计划代码实例指定Schema格式case class方式结果数据保存到数据库总结说明本博客每周五更新Spark Sql模块用于处理结构化数据,结构化数据指DataFrame数据。Spark sql是从shark发展而来,shark则是为了兼容Hive数据库,实现sql任务。资料Spark Sql官网地址优势简化数据操作,Spark Sql支持在DataFrame基础上实现sql语句操作,降低了数据操作的技术门槛原创 2021-12-24 12:11:35 · 1514 阅读 · 0 评论 -
spark(七):DataSet
文章目录说明分享资料优势代码实例DataFrame和DataSet的区别总结说明本博客周五更新本文记录spark 分布式数据类型DataSet的基本原理和使用方法。DataSet是Spark1.6添加的分布式数据集合,Spark2.0合并DataSet和DataFrame数据集合API,DataFrame变成DataSet的子集。DataSet继承RDD优点,并使用Spark SQL优化的执行引擎。支持JVM对象构建,支持函数式转换(map/flatmap/filter)等多种操作分享大原创 2021-12-17 17:42:21 · 4029 阅读 · 0 评论 -
Spark(六):DataFrame
文章目录说明分享记录特性接口一般处理流程优点缺点代码实例spark与RDD对比总结说明由于某些原因,上周五未发布博客未,本文补上。DataFrame是一种spark 1.3版本提供Spark SQL接口下的分布式数据集,继承自DataSet数据集,该概念最早由R语言和Pandas库(Python)提出。DataFrame更像传统数据库里的表,除了数据外还包含更多的辅助信息,如列名、列值和列的属性,同时支持一些复杂的数据格式。从API应用的角度,DataFrame提供的API层次更高,比RDD编程方原创 2021-12-15 12:05:42 · 4006 阅读 · 0 评论 -
spark(五):RDD API接口
文章目录说明分享接口说明mapfilterflatMapmapPartitionsmapPartitionsWithIndexmapWithflatMapWithcoalescerepartitionrandomSplitglomunion并集distinct总结说明本文记录一部分Spark RDD接口Scala代码实现。分享大数据博客列表接口说明map对RDD中的每个元素执行一个指定函数产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应,实例如下:v原创 2021-12-03 17:45:14 · 1459 阅读 · 0 评论 -
spark(四):RDD介绍
文章目录说明分享什么是RDDRDD生命周期创建RDDRDD变换RDD缓存RDD结果处理RDD特性总结说明本博客每周五更新一次。RDD 是spark计算引擎重要的数据结构,使用RDD开发业务,必须深入学习使用它。分享大数据博客列表什么是RDDRDD(Resilient Distributed Dataset) 弹性分布式数据集,spark中最重要数据结构概念,代表一个不可变、可分区、可并行计算的集合,逻辑上是一个数据集,物理上可以分块分布在不同的机器上并发运行。RDD具有数据流模型的原创 2021-10-29 12:33:41 · 1469 阅读 · 0 评论 -
spark(三):相关概念
文章目录说明分享spark相关概念RDD(Resilient Distributed Dataset)DAG(Directed Acycle Graph)ApplicationDriver ProgramSpark Context/SessionCluster ManagerDeploy ModeWorker NodeExecutorStageJobsoltTaskpartitionNarrowDependencyShuffleDependency总结说明本博客每周五更新一次。Spark是大数据平台原创 2021-10-22 12:08:36 · 135 阅读 · 0 评论 -
spark(二):本地安装
说明本博客每周五更新一次。本文介绍win10系统下spark安装,通过安装辅助理解spark。分享大数据博客列表安装模式spark有四种安装模式,具体如下:模式名称说明单机模式单台机器部署,主要用于开发测试Standalone模式多台机器构建Master+Slave的Spark集群,任务运行在spark集群中,数据量不多推荐使用。Spark On yarnSpark任务提交到hadoop集群yarn上,不需要额外构建Spark集群Spark原创 2021-10-15 12:04:15 · 642 阅读 · 0 评论 -
spark(一):生态机构与运行流程
文章目录说明分享spark生态Spark CoreSpark SQLSpark StreamingSpark MLLibSpark Graphxspark 架构整体架构运行流程细节说明总结说明Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Sp原创 2021-10-08 12:19:17 · 300 阅读 · 0 评论