莫非q-CSDN博客

原创获取当前日期的年

当我们使用一个date类型的变量去调用getYear时，获取的不是当前年份，是因为，获得的结果是从1900年开始计算的，1900到2021正好是121年，所以要想获取到当前年份，需要+1900才能得到我们想要的结果当然我们也可调用calendar.get(Calendar.YEAR)方法去获取当前年份...

2021-05-24 13:23:13 1972

原创 Spark将数据写入Excel

首先，导入pom <dependency> <groupId>com.crealytics</groupId> <artifactId>spark-excel_2.11</artifactId> <version>0.11.1</version> </dependency>写方法：def saveToExcel(filePath:String,

2021-05-23 19:57:31 2082 3

unpersist() :返回dataframe.this.type 类型，去除模式中的数据unpersist(blocking:Boolean)返回dataframe.this.type类型 true 和unpersist是一样的作用false 是去除RDDcache() 同步数据的内存persist(newlevel:StorageLevel)返回一个dataframe.this.type 输入存储模型类型printSchema() 打印出字段名称和类型按照树状结构来打印

2020-12-06 14:39:32 847

原创 Spark简介以及在不同集群中的运行流程

Spark架构1.什么是SparkSpark是基于内存的快速、通用、可扩展的大数据分析引擎2.相对于mr，为什么要选择用Spark快速：Spark是基于内存的，而mr是基于磁盘的，与mr相比，Spark基于内存的运算时mr的100倍，基于内存的运算也要快10倍以上易用：Spark支持Scala、R、Java、Python在使用层面，Spark有封装好的函数，也就是算子，而mr并没有那么完善mr只有map和reduce两个阶段3.Spark的内置模块SparkCore：实现了Spa

2020-11-30 23:18:00 278

原创 RDD概述及算子大全

RDD概述及算子1.什么是RDDSpark是一个分布式数据集的分析框架，将计算单元缩小为更适合分布式计算和并行计算的模型，称之为RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据（计算）抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。2.RDD的属性一组分区（Partition）即数据集的基本组成单位一个计算各个分区间的函数一个有关于各个RDD间依赖关系的列表

2020-11-30 23:16:59 1613

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_45532779的博客

原创获取当前日期的年

原创 Spark将数据写入Excel

原创 Spark的DataFrame算子

原创 Spark简介以及在不同集群中的运行流程

原创 RDD概述及算子大全

空空如也

空空如也

原创 获取当前日期的年

原创 Spark将数据写入Excel

原创 Spark的DataFrame算子

原创 Spark简介以及在不同集群中的运行流程

原创 RDD概述及算子大全

空空如也

空空如也

原创获取当前日期的年