随机森林+逻辑回归+贝叶斯等算法的组合使用

最新推荐文章于 2022-12-01 16:22:35 发布

灬皇帝的新装灬

最新推荐文章于 2022-12-01 16:22:35 发布

阅读量2.1k

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/qq_31032181/article/details/86630784

版权

本文探讨了如何利用随机森林发现有效特征，再结合逻辑回归进行CTR（点击率）预测，以提高预测准确性。通过创建Pipeline，使用GBDT、正则化和特征选择，最终结合朴素贝叶斯算法进行预测，从而增强模型性能，避免单一算法的局限性。

摘要由CSDN通过智能技术生成

随机森林+逻辑回归+贝叶斯

1.GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。使用其来自动发现有效的特征、特征组合，来作为LR模型中的特征，以提高 CTR预估（Click-Through Rate Prediction）的准确性

2.这个程序主要是为了提升特征的准确性，筛选有效特征。其次是锻炼混合算法的使用，避免单一算法的局限性。大家可以按照路子，随意修改或者组合自己想要用的算法，提升准确度。

3.Normalizer() 正则化也是规范特征的一种常用的方式

4.提升算法的准确度有两个出发点：

a、算法本身的选择、组合、优化。

b、数据的处理、特征的处理、数据的准确性等

import org.apache.log4j.{Level, Logger}
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification._
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.feature._
import org.apache.spark.sql.SparkSession

object GBDT_test01 {
def main(args: Array[String]) {
Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
val spark = SparkSession
.builder
.appName("logistic_regression06")
.master("local[4]")
.getOrCreate()
import spark.implicits._
//val inputdata01 = args(0).toString
//val outputdata = args(1).toString

最低0.47元/天解锁文章