数据spark

最新推荐文章于 2022-08-09 22:37:29 发布

预备程序媛

最新推荐文章于 2022-08-09 22:37:29 发布

阅读量216

点赞数 1

文章标签： spark 大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45857703/article/details/121760722

版权

本文介绍了使用Spark进行点击率(CTR)预测的完整流程，包括数据预处理、模型训练和评估。首先从HDFS加载数据，通过随机划分数据集为训练集和测试集，然后对分类特征进行One-Hot-Encoding编码，接着使用GradientBoostedTrees进行训练，最后计算模型的预测准确率。

摘要由CSDN通过智能技术生成

【实验数据】

train2.csv

字段

id:ad identifier

click:0/1 for non-click/click

hour:format is YYMMDDHH

C1:anonymized categorical variable

banner_pos

site_id

site_domain

site_category

app_id

app_domain

app_category

device_id

device_ip

device_model

device_type

device_conn_type

17-24 C14-C21: anonymized categorical variable

注:其中5到15列为分类特征,16到24列为数值型特征

数据集存放地址：hdfs:/simple_demo/demo4/目录下

【实验步骤】

一、项目准备阶段

1.1 在任意目录下运行start-all.sh.启动hadoop。如图1所示

图1

1.2 在/data/bigdata/spark-2.0.1-bin-hadoop2.7/sbin/目录下运行./start-all.sh.启动Spark。如图2所

图2

1.3 启动Scala_Ide,快捷方式在/data/bigdata/scala_ide/eclipse/下面,找到后双击启动。如图3所

图3

二、新建一个Scala项目

2.1 新建项目。如图4-5所示

图4

图5

2.2 导入Jar包,包的路径在/data/bigdata/lib/movie_lib/下,将jar包拷贝到我们新建的项目根目录下的lib中,然后构建路径。如图6-10

图6

图7

图

图9

图10

2.3 更换scala库版本,右键项目名,选择properties,然后选择Java Bulid Path 中的Libraries,编辑scala库,更换版本。如图11-13所

图12

图13

2.4 在src下新建一个包,包名为:com.xpjy,包下面新建一个scala Object。如图14-17

图1

图15

图16

图17

代码如下:

package com.xpjy

import scala.collection.mutable.ListBuffer

import scala.collection.mutable.ArrayBuffer

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

最低0.47元/天解锁文章

预备程序媛

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据spark

【实验数据】train2.csv字段id:ad identifierclick:0/1 for non-click/clickhour:format is YYMMDDHHC1:anonymized categorical variablebanner_possite_idsite_domainsite_categoryapp_idapp_domain...
复制链接

扫一扫

预备程序媛 CSDN认证博客专家 CSDN认证企业博客

码龄5年

4: 原创

113万+: 周排名

121万+: 总排名

1万+: 访问

: 等级

64: 积分

2: 粉丝

12: 获赞

4: 评论

6: 收藏

私信

关注

热门文章

分类专栏

uniapp 2篇

最新评论

[ app.json 文件内容错误] app.json: [“pages“][4]: “pages/componentsC/popup/index“ 不应该在 [“subPackages“][0] 中
44844593: [code=html] [ app.json 文件内容错误] app.json: ["pages"][0]: "pages/login/login" 不应该在 ["subPackages"][20] 中 ["pages"][1]: "pages/login/noLogin/noLogin" 不应该在 ["subPackages"][20] 中 ["pages"][2]: "pages/index/index" 不应该在 ["subPackages"][20] 中 ["pages"][3]: "pages/index/index_service" 不应该在 ["subPackages"][20] 中 ["pages"][4]: "pages/mine/mine" 不应该在 ["subPackages"][20] 中 ["pages"][5]: "pages/announceList/announceList" 不应该在 ["subPackages"][20] 中 ["pages"][6]: "pages/polictyTalkList/polictyTalkList" 不应该在 ["subPackages"][20] 中 ["pages"][7]: "pages/index/weatherInfo/weatherInfo" 不应该在 ["subPackages"][20] 中 ["pages"][8]: "pages/index/newsInfo/newsInfo" 不应该在 ["subPackages"][20] 中 ["pages"][9]: "pages/index/newsInfo/message" 不应该在 ["subPackages"][20] 中 ["pages"][10]: "pages/index/cropBugInfo/cropBugInfo" 不应该在 ["subPackages"][20] 中 ["pages"][11]: "pages/index/farmingWeather/farmingWeather" 不应该在 ["subPackages"][20] 中 ["pages"][12]: "pages/serviceMarket/index/index" 不应该在 ["subPackages"][20] 中 ["pages" [/code]
[ app.json 文件内容错误] app.json: [“pages“][4]: “pages/componentsC/popup/index“ 不应该在 [“subPackages“][0] 中
44844593: 大佬，我的提示所有路径都不应该存在subPackages中！什么原因
[ app.json 文件内容错误] app.json: [“pages“][4]: “pages/componentsC/popup/index“ 不应该在 [“subPackages“][0] 中
预备程序媛: 不用谢
[ app.json 文件内容错误] app.json: [“pages“][4]: “pages/componentsC/popup/index“ 不应该在 [“subPackages“][0] 中
星河娜美: 感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

预备程序媛 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。