自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark中一些方法的使用实例

Filter 方法查询:sort方法对age(年龄)字段进行排序:groupBy方法对age(年龄)字段进行排序:

2024-05-10 14:13:12 409 1

原创 Spark编程基础(RDD的使用)

可以先局部聚合,在全局聚合,底层调用的是combineByKeyWithClassTag,并在方法中中new的ShuffleRDD, ,mapSideCombine = true。调用了combineByKeyWithClassTag方法,传入4个参数:一个reduceByKey的默认函数,二和三都是传入的自定义函数,四是一个分区器。构造函数传入调用reduceByKey的RDD,和一个分区器,该构造方法构造出来的RDD只会执行一个shuffle,不会执行shuffle前后的聚合等方法。

2024-04-02 18:28:19 597 1

原创 Scala基础

Scala是一种将面向对象和函数式编程结合成一种的简洁的高级语言。语言特点如下:(1)Scala和Java一样属于JVM语言,使用时都需要先编译为class字节码文件,并且Scala能够直接调用Java的类库。(2)Scala支持两种编程范式面向对象和函数式编程。(3)Scala语言更加简洁高效;语法能够化简,函数式编程的思想使代码结构简洁。(4)作者马丁·奥德斯基设计Scala借鉴了Java的设计思想,同时优秀的设计也推动了Java语言的发展。二 变量和数据类型1,注释基本语法。

2024-04-02 17:02:11 745 1

原创 初学者,谈谈Spark。

这些应用程序来自Spark 的不同组件,如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和SparkR 的数学计算等,如下图所示,正是这个生态系统实现了“One Stack to Rule Them All”目标。在集群模式下,driver在集群中的某个节点(一般是应用程序的主节点)上运行。

2024-03-05 20:07:28 956

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除