自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 流水线Pipeline

按照具体的处理逻辑有序地组织PipelineStages,并创建一个Pipeline。现在构建的Pipeline本质上是一个Estimator,在它的fit()方法运行之后,它将产生一个PipelineModel,它是一个Transformer。可以看到,model的类型是一个PipelineModel,这个流水线模型将在测试数据的时候使用构建测试数据调用之前训练好的PipelineModel的transform()方法,让测试数据按顺序通过拟合的流水线,生成预测结果。

2024-05-29 21:50:29 271

原创 DateFrame算子

在创建DataFrame时,可以使用spark.read操作,从不同类型的文件中加载数据创建DataFrame:在读取本地文件或HDFS文件时,要注意给出正确的文件路径可以使用spark.write操作,把一个DataFrame保存成不同格式的文件,例如,把一个名称为df的DataFrame保存到不同格式文件中,方法如下:DataFrame的常用操作printSchema()select()filter()groupBy()sort()

2024-05-24 17:35:41 114

原创 在 Ubuntu 上安装MySQL

安装成功后,mysql-service 应该会自动启动。通过 apt 包管理器安装 MySQL。打开 MySQL 控制台。验证 MySQL 安装。

2024-05-23 17:50:38 255

原创 RDD编程基础

RDD

2024-05-23 17:35:38 1383

原创 在 Ubuntu 上安装和配置JAVA环境

安装

2024-05-22 22:36:21 340

原创 在Ubuntu 安装Jupyter Notebook

安装

2024-05-22 22:20:40 236 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除