- 博客(6)
- 收藏
- 关注
原创 流水线Pipeline
按照具体的处理逻辑有序地组织PipelineStages,并创建一个Pipeline。现在构建的Pipeline本质上是一个Estimator,在它的fit()方法运行之后,它将产生一个PipelineModel,它是一个Transformer。可以看到,model的类型是一个PipelineModel,这个流水线模型将在测试数据的时候使用构建测试数据调用之前训练好的PipelineModel的transform()方法,让测试数据按顺序通过拟合的流水线,生成预测结果。
2024-05-29 21:50:29 276
原创 DateFrame算子
在创建DataFrame时,可以使用spark.read操作,从不同类型的文件中加载数据创建DataFrame:在读取本地文件或HDFS文件时,要注意给出正确的文件路径可以使用spark.write操作,把一个DataFrame保存成不同格式的文件,例如,把一个名称为df的DataFrame保存到不同格式文件中,方法如下:DataFrame的常用操作printSchema()select()filter()groupBy()sort()
2024-05-24 17:35:41 122
原创 在 Ubuntu 上安装MySQL
安装成功后,mysql-service 应该会自动启动。通过 apt 包管理器安装 MySQL。打开 MySQL 控制台。验证 MySQL 安装。
2024-05-23 17:50:38 261
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人