随机森林+逻辑回归+贝叶斯等算法的组合使用

本文探讨了如何利用随机森林发现有效特征,再结合逻辑回归进行CTR(点击率)预测,以提高预测准确性。通过创建Pipeline,使用GBDT、正则化和特征选择,最终结合朴素贝叶斯算法进行预测,从而增强模型性能,避免单一算法的局限性。
摘要由CSDN通过智能技术生成

随机森林+逻辑回归+贝叶斯

1.GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高 CTR预估(Click-Through Rate Prediction)的准确性

2.这个程序主要是为了提升特征的准确性,筛选有效特征。其次是锻炼混合算法的使用,避免单一算法的局限性。大家可以按照路子,随意修改或者组合自己想要用的算法,提升准确度。

3.Normalizer() 正则化也是规范特征的一种常用的方式

4.提升算法的准确度有两个出发点:

      a、算法本身的选择、组合、优化。

      b、数据的处理、特征的处理、数据的准确性等

 

import org.apache.log4j.{Level, Logger}
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification._
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.feature._
import org.apache.spark.sql.SparkSession

object GBDT_test01 {
  def main(args: Array[String]) {
    Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    val spark = SparkSession
      .builder
      .appName("logistic_regression06")
      .master("local[4]")
      .getOrCreate()
    import spark.implicits._
    //val inputdata01 = args(0).toString
    //val outputdata = args(1).toString

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值