Spark
文章平均质量分 84
秦岭小和尚
一名来学习姿势的学生
展开
-
Spark SQL, DataFrames and Datasets 简介
Spark SQL 简介什么是Spark SQLSparkSQL是Spark用来处理结构化数据的一个模块。Spark SQL 特性易整合Spark SQL将SQL查询与Spark程序无缝混合,可以使用python,java等不同的语言进行代码开发统一的数据源访问以相同的方式连接到任何数据源,sparksql后期可以采用一种统一的方式去对接任意的外部数据源,不需要使用不同的Api兼容HIVEsparksql可以支持hivesql这种语法 sparksql兼容hivesql原创 2022-03-04 16:53:35 · 2659 阅读 · 0 评论 -
Spark初试
Spark 本地安装(MAC OS)1.安装Java前往JAVA Downloads下载合适Java版本MAC JAVA 安装流程在命令行中输入 java -version测试安装是否成功2. 安装Spark前往spark官网下载所需安装的版本Downloads are pre-packaged for a handful of popular Hadoop versions. Users can also download a “Hadoop free” binary and r原创 2022-03-04 15:00:01 · 2450 阅读 · 0 评论 -
Spark简介
Spark简介Spark是什么新的改变Spark集群架构合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Spark是什么新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如原创 2022-03-03 18:45:23 · 21294 阅读 · 0 评论 -
RDD简介
RDD概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,是spark core的底层核心,它代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset:就是一个集合,存储很多数据.Distributed:它内部的元素进行了分布式存储,方便于后期进行分布式计算.Resilient:表示弹性,rdd的数据是可以保存在内存或者是磁盘中.RDD 五大属性A list of partitionsRDD 是 一组原创 2022-03-03 15:43:53 · 9347 阅读 · 0 评论
分享