自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Kafka概念初识

前置知识 消息队列MQ。

2024-07-23 16:12:34 2030

原创 spark 处理json文件时几种常用函数

spark 处理json的常用函数

2024-07-17 15:13:58 742

原创 Apache Spark使用udf对象注册函数和普通定义的函数

/ 函数体// 最后一行表达式的值将作为返回值普通定义的函数:只能在DataFrame API中使用,不能直接在SQL查询中使用。普通定义的函数:在DataFrame API中使用时,Spark的Catalyst优化器可以对其进行优化。普通定义的函数:在DataFrame API中使用时,类型检查在编译时进行。使用udf对象注册的函数和普通定义的函数各有优缺点。如果你需要在SQL查询中使用自定义逻辑,那么使用udf对象注册的函数是必要的。

2024-07-16 15:33:44 808

原创 将spark计算结果导出或读取

配置连接属性。

2024-07-15 19:23:44 374

原创 spark持久化,行动算子与转化算子

1.Spark Persist是一种将数据持久化到内存中的操作,以便在后续的计算中重复使用。它可以提高计算性能,减少数据读取和写入的开销。

2024-07-15 18:47:11 290

原创 RDD、DataFrame和Dataset的关系

简而言之:DataFrame = RDD(row) + schema(表结构)dataset [row] = DataFrame

2024-07-15 17:04:12 104

原创 将Spark RDD转换为Spark DataFrame有几种常见方法

不规定列名,程序会自动给。

2024-07-15 16:29:07 395

原创 spark与scala版本对应关系

scala 安装网站(

2024-07-15 15:33:49 635

原创 spark练习2

统计每个国家在数据截止统计时的累计确诊人数。(9 分)

2024-07-11 16:31:56 250

原创 spark练习

③统计每个店铺销售额最高的前三个商品,输出内容包括店铺名,商品名和销售额,其中销售额为 0 的商品不进行统计计算,例如:如果某个店铺销售为 0 ,则不进行统计。用try(.....).toOption.getOrElse(0.0)补充:import scal.util. 防止转化时出现异常。如果todouble 和toInt 报错。

2024-07-09 16:16:06 199

原创 7-9Spark算子和sparksql读表时去除表头

/filter 算子过滤val spuRDD = fileRDD.filter(x=>x.startsWith("spu_id")==false)spark 算子利用filter 算子过滤。sparksql 读表的时候直接去除。

2024-07-09 14:58:41 157

spark 处理json文件时几种常用函数

spark 处理json文件时几种常用函数

2024-07-17

spark练习2 hadoop+hive+hbase

spark练习2 hadoop+hive+hbase

2024-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除