1.互联网广告点击率预估模型中特征提取方法的研究与实现
背景
北京工商大学发表在《计算机与信息工程学院》2017 (针对展示广告)
主要做法
- 文章主要是在特征工程这块下功夫,提出来基于GBDT模型的多维特征提取方法,该方法利用原始特征数据构建多维特征库,并将特征库中除ID类特征以外的其余特征输入GBDT模型进行特征筛选,得到高层特征。
- 数据预处理部分: 对数据异常点分析,ctr历史分布,正负样本比例进行探索。
- 特征库设计: ID类特征, 用户特征, 广告特征, 历史反馈特征
- GBDT是一种常用的非线性模型。它基于集成学习中的boosting模型,每次迭代都在减小残差的梯度方向新建一颗决策树,迭代多少次就会生成多少棵决策树。
- 大数据平台搭建,进行系统搭建。
可借鉴的点与启发
- 文章主要是基于GBDT进行特征的组建和选择,模型有些单薄。其特征工程部分可以作为论文中特征工程的一个子部分。
- 文章的数据预处理部分是可以借鉴的。
- 模型部分本篇并没有探索。
- 大数据平台搭建部分,在有余力的情况下,也可以做一做。
2. 互联网广告点击率预测模型的研究
背景
郑州大学 2019 毕业论文 (针对搜索广告)
主要做法
- 对单模型进行分别介绍
- 然后进行模型融合
- 所用数据集为kddcup2019
可借鉴的点与启发
- 这篇文章应该是标准的毕业论文的结构,虽然干货不多,但是行文结构值得借鉴。毕设做这个任务,也只能分为背景介绍,技术介绍,数据处理,单模型测试结果,创新后的结果,我可能会加一个工程上的。
- 数据集可以像文章一样用论文里的。
3. 基于DeepFM模型的广告推荐系统研究
背景
张凯发表在《山东大学控制科学与工程学院》2017
主要做法与一些基础知识
- 逻辑回归万物的发生多可以用可能性或者几率来表达,几率表达式如下:
odds = p/(1-p)
logit(odds) = log(p/1-p)
log(P(Y=1 |x) /1 - P(Y = 1|x)) = wx
求解方法有牛顿法,拟牛顿法,梯度下降法,梯度下降法用一阶导数信息,牛顿法用二阶导数信息。
可借鉴的点与启发
用腾讯社交广告数据集对LR,FM和DEEPFM做了测评。
3.基于FTRL优化算法的广告点击率预测模型研究
背景
西安科技大学发表在期刊上
主要做法
FTRL 优化
4. 基于k均值三阶段集成 在线广告点击率模型
可借鉴的点
kmeans聚类不同的特征,形成子数据集
5. 基于RF_XGBoost和FFM
可借鉴的点
建立了XGboost+FFM, FFM+RF, FFM+XGBoost的集成学习模型。使用logloss作为评价指标