spark改写 心血管疾病预测

本文探讨了如何利用Spark框架,结合特征工程和算法技术,对心血管疾病进行预测。提供了从数据预处理到模型构建的详细流程,旨在提高预测的准确性和效率。
摘要由CSDN通过智能技术生成

python版传送门:https://www.kesci.com/home/project/5da974e9c83fb400420f77d3

package dataclear

/**
 * @CreateUser: eshter
 * @CreateDate: 2019/10/23
 * @UpdateUser:
 */

import utils.session.IgnoreErrorAndINFO
import org.apache.spark.sql.{
   DataFrame, SparkSession}
import org.apache.spark.ml.classification.{
   LogisticRegression}
import org.apache.spark.ml.feature.{
   StandardScaler, VectorAssembler, _}
import utils.metrics.Metrics
import org.apache.spark.ml.Pipeline
object cardioTrainLr {
   
  /*
  注意:
  1、label =cardio
  2、StandardScaler 只支持输入向量(org.spark.ml.linalg.Vector)的数据
  3、数据的连续型变量为Array(
      "age"
      ,"height"
      ,"weight"
      ,"ap_hi"
      ,"ap_lo"
    )
    4、数据的离散型变量为
    Array(
      "gender"
      ,"cholesterol"
      ,"gluc"
      ,"smoke"
      ,"alco"
    )
   */
  new IgnoreErrorAndINFO().ignoreErrorAndInfo()


  def splitData(df:DataFrame,splitRate:Double)={
   
    val dfTmp = df.randomSplit(Array(splitRate,1-splitRate),seed=2)
    List(dfTmp(0),dfTmp(1))
  }

  def featureHandleTest(dfTrain:DataFrame,dfValid:DataFrame
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值