自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark笔记

(3)first()/head()/take()/takeAsList():获取若干条记录。方式2:var gsj:Array[String] = Array(元素1,元素2,…(2)select()/selectExpr()/col()/apply()方法。(4)collect()/collectAsList():获取所有数据。takeAsList(n):获取前n条记录,并以列表的形式展现。limit():获取指定DataFrame数据的前n条记录。15.使用键值对RDD的groupByKey()方法。

2024-05-11 18:10:28 552 2

原创 maven笔记

- 打包方式,web工程打包为war,Java工程打包为jar-->mvn install #安装到本地仓库。mvn compile #编译。-- 依赖所属项目id-->mvn clean #清理。--设置当前工程的所有依赖d-->mvn test #测试。-- 依赖所属群组id-->--指定pom的模型版本-->--依赖版本号-->-- 具体的插件配置-->-- 组织id-->-- 项目id-->-- 当前依赖-->-- 设置插件-->

2024-05-10 18:53:04 551

原创 Spark RDD实操

创建rdd4,首先用filter()方法过滤去除100以下的数据,之后再用distinct()方法去重输出。首先创建rdd1与rdd2,用union()方法合并rdd1与rdd2放在rdd3中。创建g_rdd1,用groupByKey()方法对具有相同的值进行分组,将相同键的值的数量输出。创建rdd6,先用distinct()方法去重,再用cartesian()方法输出笛卡尔积。创建rdd1与rdd2,用union()方法将rdd1和rdd2放在rdd4中。用distinct()方法去重。

2024-04-01 18:37:48 482

原创 spark初学

Spark官网:http://sparkSpark是新一代轻量级大数据处理平台Spark特点快速Spark运行速度快的原因是Spark的中间数据存放在内存中易用Spark支持多种语音的交互模式界面通用Spark框架包含多个紧密集成的组件,涵盖了机器学习、图形算法、流式计算、SQL查询和迭代计算等多种功能,组件间无缝、紧密地集成,一站式解决工作流中的问题。随处运行用户可以使用Spark的独立集群模式运行Spark,也可以在EC2(亚马逊弹性计算云)、Hadoop。

2024-03-04 17:35:44 1012

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除