数据spark

本文介绍了使用Spark进行点击率(CTR)预测的完整流程,包括数据预处理、模型训练和评估。首先从HDFS加载数据,通过随机划分数据集为训练集和测试集,然后对分类特征进行One-Hot-Encoding编码,接着使用GradientBoostedTrees进行训练,最后计算模型的预测准确率。
摘要由CSDN通过智能技术生成

【实验数据】

    train2.csv

    字段

    id:ad identifier

    click:0/1 for non-click/click

    hour:format is YYMMDDHH

    C1:anonymized categorical variable

    banner_pos

    site_id

    site_domain

    site_category

    app_id

    app_domain

    app_category

    device_id

    device_ip

    device_model

    device_type

    device_conn_type

    17-24 C14-C21: anonymized categorical variable

    注:其中5到15列为分类特征,16到24列为数值型特征

    数据集存放地址:hdfs:/simple_demo/demo4/目录下

【实验步骤】

    一、项目准备阶段

        1.1 在任意目录下运行start-all.sh.启动hadoop。如图1所示

图1

        1.2 在/data/bigdata/spark-2.0.1-bin-hadoop2.7/sbin/目录下运行./start-all.sh.启动Spark。如图2所

图2

        1.3 启动Scala_Ide,快捷方式在/data/bigdata/scala_ide/eclipse/下面,找到后双击启动。如图3所

图3

    二、新建一个Scala项目

        2.1 新建项目。如图4-5所示

图4

图5

        2.2 导入Jar包,包的路径在/data/bigdata/lib/movie_lib/下,将jar包拷贝到我们新建的项目根目录下的lib中,然后构建路径。如图6-10

图6

图7

图9

图10

        2.3 更换scala库版本,右键项目名,选择properties,然后选择Java Bulid Path 中的Libraries,编辑scala库,更换版本。如图11-13所

图12

图13

        2.4 在src下新建一个包,包名为:com.xpjy,包下面新建一个scala Object。如图14-17

图1

图15

图16

图17

        代码如下:

        package com.xpjy

        import scala.collection.mutable.ListBuffer               

        import scala.collection.mutable.ArrayBuffer

        import org.apache.spark.SparkContext

        import org.apache.spark.SparkContext._               

        import org.apache.spark.SparkConf               

        import org.apache.spark.rdd.RDD 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

预备程序媛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值