Spark学习——使用Spark做CTR预估

最新推荐文章于 2023-11-16 14:53:29 发布

春风吹23

最新推荐文章于 2023-11-16 14:53:29 发布

阅读量651

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_36226326/article/details/108021201

版权

本文介绍了一个基于Spark进行点击率(CTR)预估的项目，涉及数据集处理、特征工程和Spark配置。数据集包括训练集和测试集，其中训练集用于模型训练，测试集用于评估。在数据预处理阶段，处理了缺失值和异常值，例如使用众数填充内容ID的缺失值。在Spark平台上，讨论了Hadoop和Spark的区别，以及Spark配置，如Executor的数量和资源分配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

赛题信息背景

任务描述：基于用户对广告任务的历史行为和广告任务属性，选择合适的算法预测用户在特定上下文下对某个广告任务的点击概率。
尝试解决的问题：提高广告点击转化率预估的准确性
难点：广告任务相对可推用户数量非常少；有行为的广告任务较少，数据非常稀疏；广告任务在投放周期的不同阶段转化率差异较大；存在误点击噪音数据；有效特征识别困难

数据集 - 训练集很大，采用分割方式进行数据集查看

训练集 [‘label’, ‘uId’, ‘adId’, ‘operTime’, ‘siteId’, ‘slotId’, ‘contentId’, ‘netType’]
- 标签用户ID 广告ID 操作时间媒体ID 广告位ID 内容ID 网络类型
测试集 [‘testId’, ‘uId’, ‘adId’, ‘operTime’, ‘siteId’, ‘slotId’, ‘contentId’, ‘netType’]
- testId 用户ID 广告ID 操作时间媒体ID 广告位ID 内容ID 网络类型
用户信息表 user_info [‘uId’, ‘age’, ‘gender’, ‘city’, ‘province’, ‘phoneType’, ‘carrier’]
- 用户年龄、性别、省份、城市、手机类型、运营商编号
广告信息表 ad_info [‘adId’, ‘billId’, ‘primId’, ‘creativeType’, ‘intertype’, ‘spreadAppId’])
- 广告ID 收费模式所在APPID
素材信息表 content_info [‘contentId’, ‘firstClass’, ‘secondClass’]
- 内容ID 一级内容二级内容

数据探索

训练集没有缺失
测试集内容Id列有缺失 156个采用SimpleImputer 众数补全
用户特征 carrier 3.8%缺失 city 0.27% age 0.16% gender 0.16% 众数补全
- 都是类别特征(age已经分箱)用柱状图画出数据分布
广告信息表 ad_info spreadAppId 缺失39%
素材信息表 content_info secondClass，缺失58%