自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 scala基础知识概括---快快码住超实用!!!

Scala有两种类型的变量:Var定义变量:使用关键字var声明的变量,值是可变的;Val定义常量:使用关键字val声明的变量,也叫常量,值是不可变的。第1种方式第2种方式var arr:Array[String] = Array(元素1,元素2,…)数组操作常用方法:操作数组:#查看数组z的长度: z.length#查看数组z的第一个元素:z.head#查看数组z中除了第一个元素外的其他元素: z.tail#判断数组z是否为空:z.isEmpty。

2024-05-14 19:52:15 1464

原创 适合新手小白的超全Spark SQL---结构化数据文件处理知识点总结

Dataset数据的表现形式,序号(3)和(4),其中序号(3)是在RDD每行数据的基础之上,添加一个数据类型(value:String)作为Schema元数据信息。Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理。Dataset提供了。

2024-05-12 16:15:16 1594

原创 新手小白轻松拿捏Spark编程基础!!!

第二种方式生成的RDD中保存的是T的值,Seq[String]部分的数据会按照Seq[(T,Seq[String])]的顺序存放到各个分区中,一个Seq[String]对应存放至一个分区,并为数据提供位置信息,通过preferredLocations()方法可以根据位置信息查看每一个分区的值。在进行处理时,reduceByKey()方法将相同键的前两个值传给输入函数,产生一个新的返回值,新产生的返回值与RDD中相同键的下一个值组成两个元素,再传给输入函数,直到最后每个键只有一个对应的值为止。

2024-04-02 22:34:19 472

原创 新手小白快速学会spark!!!!

非结构化数据(Unstructured Data) :非结构化数据是相对于结构化数据而言的,有全文文本、图像、声音、影视、超媒体等形式,并以文件存储,这些数据形式就属于非结构化数据。结构化数据(Structured Data) :结构化数据是用二维表格的形式进行数据的存储,二维表格由多列组成,每一-列的数据具有严格的同质性,所以每一行数据都具有完全相同的结构。是广告中寻找目标用户的一种方法,首先广告者提供一些观看了广告并且购买产品的样本客户,据此进行学习,寻找更多可能转化的用户,对他们定向广告。

2024-03-05 11:37:28 1335

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除