scala-spark版本xgboost包使用

4 篇文章 0 订阅
4 篇文章 0 订阅
//  XGBOOST测试

//调用形式
//  /opt/app/spark-1.6.1/bin/spark-shell --master yarn-client --conf spark.executor.extraJavaOptions='-XX:PermSize=1024M' --driver-memory 6g --num-executors 80 
//(续上)  --executor-memory 6g --executor-cores 1 --jars /opt/app/spark-1.6.1/lib/xgboost4j-spark-0.5-jar-with-dependencies.jar  

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.tree.RandomForest
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}
import ml.dmlc.xgboost4j.scala.spark.XGBoost

val df=sqlContext.sql("select * from databasename.tmp_ym_hotel_multiple_features_table_new_train")
val data=df.select(df("order_cii_notcancelcii"),df("city"),df("order_cii_ahead_1day"),df("order_cii_ahead_3days_avg")
,df("order_cii_ahead_7days_avg"),df("order_cii_30days_avg"),df("order_cii_ahead_sameoneweek"),df("order_cii_ahead_sametwoweeks_avg")
,df("star"),df("goldstar"),df("level"),df("ratingservice"),df("novoters"),df("week_day"),df("working_day"),df("cii_ahead_sameoneweek")
,df("cii_ahead_sametwoweeks_avg"),df("cii_ahead_samethreeweeks_avg"),df("cii_ahead_samefourweeks_avg"),df("simple_estimate_constant")
,df("cii_ahead_1day_avg"),df("cii_ahead_3days_avg"),df("cii_ahead_7days_avg"),df("order_ahead_lt_1days"),df("order_ahead_lt_2days")
,df("order_ahead_lt_3days"),df("order_ahead_lt_7days"),df("order_ahead_lt_14days"),df("order_alldays"),df("click_ahead_1day")
,df("click_ahead_2days"),df("click_ahead_3days"),df("click_ahead_7days"),df("click_ahead_14days"),df("browse_0day_uv")
,df("browse_1day_uv"),df("browse_2day_uv"),df("browse_3day_uv"),df("browse_4day_uv"),df("browse_5day_uv")
,df("browse_6day_uv"),df("browse_7_14day_uv"),df("browse_14daymore_uv"),df("order_cii_14days_avg"),df("order_cii_21days_avg")
,df("order_cii_ahead_samethreeweeks_avg"),df("order_cii_ahead_samefourweeks_avg"))


import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
val  trainData=data.map{line =>
  val label=line(0).toString.toDouble
  val value0=(1 to 16).map(i=>  line(i).toString.toDouble  )
  val featureVector=Vectors.dense( value0.toArray)
  LabeledPoint(label, featureVector)
}


// 测试开始+1
val numRound = 800
val paramMap = List(
  "eta" -> 0.1f,
  "max_depth" -> 6,  //数的最大深度。缺省值为6 ,取值范围为:[1,∞] 
  "silent" ->  0,  //取0时表示打印出运行时信息,取1时表示以缄默方式运行,不打印运行时信息。缺省值为0 
  "objective" -> "reg:linear",  //定义学习任务及相应的学习目标
  "eval_metric" -> "rmse",  //校验数据所需要的评价指标
  "nthread"->  1  //XGBoost运行时的线程数。缺省值是当前系统可以获得的最大线程数
  ).toMap 

val model  = XGBoost.train(trainData, paramMap, numRound, nWorkers = 80, useExternalMemory = false)

val sql_test="select * from databasename.tmp_ym_hotel_multiple_features_table_test_7days"   //10月31日~11月6日
val df1=sqlContext.sql(sql_test)
val data1=df1.select(df1("masterhotel"),df1("city"),df1("order_cii_ahead_1day"),df1("order_cii_ahead_3days_avg"),df1("order_cii_ahead_7days_avg")
,df1("order_cii_30days_avg"),df1("order_cii_ahead_sameoneweek"),df1("order_cii_ahead_sametwoweeks_avg"),df1("star"),df1("goldstar")
,df1("level"),df1("ratingservice"),df1("novoters"),df1("week_day"),df1("working_day"),df1("cii_ahead_sameoneweek"),df1("cii_ahead_sametwoweeks_avg")
,df1("cii_ahead_samethreeweeks_avg"),df1("cii_ahead_samefourweeks_avg"),df1("simple_estimate_constant"),df1("cii_ahead_1day_avg")
,df1("cii_ahead_3days_avg"),df1("cii_ahead_7days_avg"),df1("order_ahead_lt_1days"),df1("order_ahead_lt_2days")
,df1("order_ahead_lt_3days"),df1("order_ahead_lt_7days"),df1("order_ahead_lt_14days"),df1("order_alldays")
,df1("click_ahead_1day"),df1("click_ahead_2days"),df1("click_ahead_3days"),df1("click_ahead_7days")
,df1("click_ahead_14days"),df1("browse_0day_uv"),df1("browse_1day_uv"),df1("browse_2day_uv"),df1("browse_3day_uv")
,df1("browse_4day_uv"),df1("browse_5day_uv"),df1("browse_6day_uv"),df1("browse_7_14day_uv"),df1("browse_14daymore_uv")
,df1("order_cii_14days_avg"),df1("order_cii_21days_avg"),df1("order_cii_ahead_samethreeweeks_avg"),df1("order_cii_ahead_samefourweeks_avg"))


 
//LablePoint构建
// 修改!!!!
val  testData=data1.map{line =>
  val label=line(0).toString.toDouble
  val value0=(1 to 16).map(i=>  line(i).toString.toDouble)
  val featureVector=Vectors.dense( value0.toArray)
  featureVector
}
val predTrain = model.predict(testData)
val s=predTrain.collect()(0)


//s.length


//真实值
val data2=df1.select(df1("masterhotel"),df1("order_cii_notcancelcii"), df1("rank1"),df1("orderdate"))
val actual_frame=data2.toDF()

//构建DataFrame类型结果集
case class resultset(masterhotel:Int,  //母酒店ID
quantity:Double,   //真实产量
rank:Int,     //排序
date:String,    //日期
frcst_cii:Double //预测产量
)    

val ac_1=actual_frame.collect()
val pr_1=predTrain.collect()(0)


val output0=(0 until ac_1.length).map( i =>resultset(ac_1(i)(0).toString.toInt,
ac_1(i)(1).toString.toDouble,
ac_1(i)(2).toString.toInt,
ac_1(i)(3).toString,
pr_1(i)(0).toString.toDouble
)).toDF()


//增加一列
val output=output0.withColumn("diff",abs($"quantity"-$"frcst_cii"))

// 计算MAE@100, MAE@500
val MAE100=output.filter($"rank"<=100).groupBy("date").avg("diff")
val MAE500=output.groupBy("date").avg("diff")
val mae100=MAE100.sort("date").collect()
val mae500=MAE500.sort("date").collect()


//结果打印
mae100.foreach(i => println("MAE100",i))
mae500.foreach(i => println("MAE500",i))


### 回答1: 以下是一个简单的Scala-Spark SQL查询和输出的示例: ```scala import org.apache.spark.sql.SparkSession object SparkSQLDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("SparkSQLDemo") .master("local[*]") .getOrCreate() // 读取CSV文件并创建DataFrame val df = spark.read .option("header", "true") .option("inferSchema", "true") .csv("path/to/csv/file") // 创建临时表 df.createOrReplaceTempView("people") // 执行SQL查询 val result = spark.sql("SELECT * FROM people WHERE age > 30") // 输出结果 result.show() spark.stop() } } ``` 这个示例演示了如何使用SparkSession对象读取CSV文件并创建DataFrame,然后将DataFrame注册为一个临时表,最后执行SQL查询并输出结果。在这个示例中,我们查询了所有年龄大于30岁的人的信息。 ### 回答2: Spark SQL是Spark中一个用于分布式数据处理的模块,它提供了一个用于结构化数据处理的SQL查询引擎。Scala是一种在JVM上运行的编程语言,它被广泛用于Spark中的开发。本文将介绍Scala-Spark SQL的查询和输出demo。 首先,我们需要导入Spark SQL的: ```scala import org.apache.spark.sql.SparkSession ``` 然后,我们需要创建一个SparkSession对象: ```scala val spark = SparkSession.builder.appName("ScalaSparkSQLDemo").getOrCreate() ``` 接下来,我们可以通过以下代码从csv文件中读取数据并创建一个DataFrame对象: ```scala val df = spark.read.option("header", "true").option("delimiter", ",").csv("path/to/file.csv") ``` 上述代码中,“header”选项表示csv文件的第一行被视为列名,而“delimiter”选项表示csv文件中使用的字段分隔符。在这里,我们将csv文件的路径指定为“file.csv”。 接下来,我们可以执行SQL查询: ```scala df.createOrReplaceTempView("people") val result = spark.sql("SELECT * FROM people WHERE age > 21") ``` 上述代码中,“createOrReplaceTempView”方法将DataFrame注册为可临时使用的表,表名为“people”。然后我们执行SQL查询语句:“SELECT * FROM people WHERE age > 21”,筛选出age大于21的所有行。 最后,我们可以将结果输出到控制台: ```scala result.show() ``` 上述代码中,“show”方法将结果以表格形式输出到控制台。 整个Scala-Spark SQL查询输出demo的代码如下: ```scala import org.apache.spark.sql.SparkSession object ScalaSparkSQLDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder.appName("ScalaSparkSQLDemo").getOrCreate() val df = spark.read.option("header", "true").option("delimiter", ",").csv("path/to/file.csv") df.createOrReplaceTempView("people") val result = spark.sql("SELECT * FROM people WHERE age > 21") result.show() spark.stop() } } ``` 注意,我们还需在代码结尾使用spark.stop()”方法,以关闭SparkSession对象,释放资源。 以上是Scala-Spark SQL查询输出demo的详细说明,开发者们可以根据需求进行修改和应用。 ### 回答3: Scala-Spark是大数据处理和分析领域的重要框架之一,其提供了强大的数据分析和处理工具,其中Spark SQL。Spark SQL是将结构化数据和非结构化数据整合到一起进行分析和处理的一个模块,基于Spark Core数据处理引擎,并支持使用Scala、Java和Python等语言进行编程。 下面我们来看一个Scala-Spark SQL的查询和输出Demo: 首先需要导入相应的,因为使用的是Spark 2.4版本,所以需要导入spark-sql的jar: ```scala import org.apache.spark.sql.SparkSession ``` 然后创建一个SparkSession对象: ```scala val spark = SparkSession.builder().appName("Spark SQL Demo").master("local[*]").getOrCreate() ``` 接下来读入数据,构建DataFrame,比如我们在本地有一个people.csv文件,有两列数据:name和age,我们可以使用如下代码读取该文件构建DataFrame: ```scala val file = "people.csv" var peopleDF = spark.read.format("csv").option("header","true").load(file) ``` 然后我们对DataFrame数据进行一些操作,例如筛选出年龄大于30的人: ```scala var resultDF = peopleDF.filter("age > 30") ``` 接下来我们可以将结果输出到控制台,使用show()方法: ```scala resultDF.show() ``` 最后记得关闭SparkSession对象: ```scala spark.stop() ``` 以上就是Scala-Spark SQL查询与输出的基本Demo,这些代码可以帮助你了解在Scala中如何使用Spark SQL来进行数据查询和输出。当然,Spark SQL还有很多强大的功能和语法,需要大家自己去探索和学习。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值