自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 获取当前日期的年

当我们使用一个date类型的变量去调用getYear时,获取的不是当前年份,是因为,获得的结果是从1900年开始计算的,1900到2021正好是121年,所以要想获取到当前年份,需要+1900才能得到我们想要的结果当然我们也可调用calendar.get(Calendar.YEAR)方法去获取当前年份...

2021-05-24 13:23:13 1972

原创 Spark将数据写入Excel

首先,导入pom <dependency> <groupId>com.crealytics</groupId> <artifactId>spark-excel_2.11</artifactId> <version>0.11.1</version> </dependency>写方法:def saveToExcel(filePath:String,

2021-05-23 19:57:31 2082 3

原创 Spark的DataFrame算子

unpersist() :返回dataframe.this.type 类型,去除模式中的数据unpersist(blocking:Boolean)返回dataframe.this.type类型 true 和unpersist是一样的作用false 是去除RDDcache() 同步数据的内存persist(newlevel:StorageLevel)返回一个dataframe.this.type 输入存储模型类型printSchema() 打印出字段名称和类型 按照树状结构来打印

2020-12-06 14:39:32 847

原创 Spark简介以及在不同集群中的运行流程

Spark架构1.什么是SparkSpark是基于内存的快速、通用、可扩展的大数据分析引擎2.相对于mr,为什么要选择用Spark快速:Spark是基于内存的,而mr是基于磁盘的,与mr相比,Spark基于内存的运算时mr的100倍,基于内存的运算也要快10倍以上易用:Spark支持Scala、R、Java、Python在使用层面,Spark有封装好的函数,也就是算子,而mr并没有那么完善mr只有map和reduce两个阶段3.Spark的内置模块SparkCore:实现了Spa

2020-11-30 23:18:00 278

原创 RDD概述及算子大全

RDD概述及算子1.什么是RDDSpark是一个分布式数据集的分析框架,将计算单元缩小 为更适合分布式计算和并行计算的模型,称之为RDDRDD(Resilient Distributed Dataset)叫做弹性分布式 数据集,是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面 的元素可并行计算的集合。2.RDD的属性 一组分区(Partition)即数据集的基本组成单位 一个计算各个分区间的函数 一个有关于各个RDD间依赖关系的列表

2020-11-30 23:16:59 1613

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除