spark改写心血管疾病预测

最新推荐文章于 2024-05-20 20:39:26 发布

Daisy和她的单程车票

最新推荐文章于 2024-05-20 20:39:26 发布

阅读量860

点赞数

分类专栏： spark 文章标签： spark 特征工程算法

本文链接：https://blog.csdn.net/u012513618/article/details/103403704

版权

本文探讨了如何利用Spark框架，结合特征工程和算法技术，对心血管疾病进行预测。提供了从数据预处理到模型构建的详细流程，旨在提高预测的准确性和效率。

摘要由CSDN通过智能技术生成

python版传送门：https://www.kesci.com/home/project/5da974e9c83fb400420f77d3

package dataclear

/**
 * @CreateUser: eshter
 * @CreateDate: 2019/10/23
 * @UpdateUser:
 */

import utils.session.IgnoreErrorAndINFO
import org.apache.spark.sql.{
   DataFrame, SparkSession}
import org.apache.spark.ml.classification.{
   LogisticRegression}
import org.apache.spark.ml.feature.{
   StandardScaler, VectorAssembler, _}
import utils.metrics.Metrics
import org.apache.spark.ml.Pipeline
object cardioTrainLr {
   
  /*
  注意：
  1、label =cardio
  2、StandardScaler 只支持输入向量（org.spark.ml.linalg.Vector）的数据
  3、数据的连续型变量为Array(
      "age"
      ,"height"
      ,"weight"
      ,"ap_hi"
      ,"ap_lo"
    )
    4、数据的离散型变量为
    Array(
      "gender"
      ,"cholesterol"
      ,"gluc"
      ,"smoke"
      ,"alco"
    )
   */
  new IgnoreErrorAndINFO().ignoreErrorAndInfo()


  def splitData(df:DataFrame,splitRate:Double)={
   
    val dfTmp = df.randomSplit(Array(splitRate,1-splitRate),seed=2)
    List(dfTmp(0),dfTmp(1))
  }

  def featureHandleTest(dfTrain:DataFrame,dfValid:DataFrame

最低0.47元/天解锁文章

Daisy和她的单程车票

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
spark改写心血管疾病预测

python版传送门：https://www.kesci.com/home/project/5da974e9c83fb400420f77d3package dataclear/** * @CreateUser: eshter * @CreateDate: 2019/10/23 * @UpdateUser: */import utils.session.IgnoreErrorAnd...
复制链接

扫一扫