随机森林+逻辑回归+贝叶斯
1.GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高 CTR预估(Click-Through Rate Prediction)的准确性
2.这个程序主要是为了提升特征的准确性,筛选有效特征。其次是锻炼混合算法的使用,避免单一算法的局限性。大家可以按照路子,随意修改或者组合自己想要用的算法,提升准确度。
3.Normalizer() 正则化也是规范特征的一种常用的方式
4.提升算法的准确度有两个出发点:
a、算法本身的选择、组合、优化。
b、数据的处理、特征的处理、数据的准确性等
import org.apache.log4j.{Level, Logger}
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification._
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.feature._
import org.apache.spark.sql.SparkSession
object GBDT_test01 {
def main(args: Array[String]) {
Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
val spark = SparkSession
.builder
.appName("logistic_regression06")
.master("local[4]")
.getOrCreate()
import spark.implicits._
//val inputdata01 = args(0).toString
//val outputdata = args(1).toString