pyspark 机器学习库表搭建规范 学习笔记

一、pyspark 机器学习数据处理流

1、使用原始数据文件构建ods层数据

2、将ods层数据划分分区和增加必要的主键字段(如无),构建dwd层数据以及dim层数据。建议用于分区的字段:split=train/val/test  date='yyyyMMdd'

3、将dwd层数据做预处理,null值填充,onehot化,特征工程,构建dws层数据

4、将dws层数据做特征选择并归一化,构建ads层数据,形成ads_feature表,取train/val分区用于模型训练和调优

5、模型训练完成后定义udf,取test分区做模型预测,落成ads_result表

二、注意

1、训练集、验证集和测试集最好放在同一个表,一并探查和处理,不要分别处理,否则容易出现数据探查不全面以及训练集测试集数据处理流程不一致的问题

2、不同层的数据都必须保留主键字段,避免预测结果与id对应不上

3、创建表库或者表时要指定location

4、手动输入浮点数时要cast(0.12 as float),否则无法与字段对应相等

三、初始化模板 pyspark3.x

import os 
os.environ['PYSPARK_PYTHON'] ='C:/Users/.../.conda/envs/.../python.exe'
import pyspark
print(pyspark.__version__)
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MyApp").enableHiveSupport().getOrCreate()
from pyspark.sql.types import *
import pandas as pd

四、pyspark 数据转换

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值