逻辑回归模型预测ctr

最新推荐文章于 2024-05-09 17:36:50 发布

marui1982

最新推荐文章于 2024-05-09 17:36:50 发布

阅读量4.4k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/newmarui/article/details/47006337

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

参考文章：

一些要点：

1.正反例选择：当正反例比例差异较大时，无法得到正确训练结果，需要反例进行抽样（假设反例的数量较多）

2.每天展示->点击记录作为一条训练数据

3.参数影响：训练时参数的影响不大

4.稀疏数据处理：如果是weka，则支持稀疏数据的处理

5.训练数据数量:单个特征最好有5条及以上训练记录（正例），就是100个特征至少有500个以上的训练数据

6.特征选择筛选：低训练数据对应的特征无法得到一个正确的值

7.特征选择（就搜索点击率预测而言）：

用户特征，查询词特征、广告特征、查询词与广告相关性特征等

逻辑回归数据模型特性：

对于数据区间取值的或枚举类型的，应该将该维特征转化为多维特征：如特征值为0~1之间，可以变为0~0.2,0.2~0.4,0.4~0.8，0.8~1.0五个特征

各个维度的特征应该进行归一化处理（取0~1之间的数据）

还存在的问题：

1.低点击率、高展示的词在训练数据中并未被记录：因为按照正反例的比例做抽样，采样中反例丢失数据较多

2.新数据处理：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归模型预测ctr

参考文章：一些要点：1.正反例选择：当正反例比例差异较大时，无法得到正确训练结果，需要反例进行抽样（假设反例的数量较多）2.每天展示->点击记录作为一条训练数据3.参数影响：训练时参数的影响不大4.稀疏数据处理：如果是weka，则支持稀疏数据的处理5.训练数据数量:单个特征最好有5条及以上训练记录（正例），就是100个特征至少有500个以上的训练数据6.特征选择筛选：低
复制链接

扫一扫

专栏目录

marui1982 CSDN认证博客专家 CSDN认证企业博客

码龄21年

86: 原创

11万+: 周排名

105万+: 总排名

12万+: 访问

: 等级

2009: 积分

17: 粉丝

14: 获赞

4: 评论

37: 收藏

私信

关注

热门文章

分类专栏

最新评论

sklearn学习（模块列表）
林先生您好: 上面说错了上面是分类的回归的策略为: DummyRegressor也实现了4种简单的方法： mean：通常预测训练target的均值。 median：通常预测训练target的中值。 quantile：预测由用户提供的训练target的分位数 constant：常量
sklearn学习（模块列表）
林先生您好: sklearn.dummy 是用特定的策略用于分类或者回归： stratified：根据训练集的分布来生成随机预测 most_frequent：在训练集中总是预测最频繁的label prior：总是预测分类最大化分类优先权（比如：most_frequent），predict_proba返回分类优化权 uniform：以均匀方式随机生成预测 constant：由用户指定，总是预测一个常量的label。该方法的一个最主要动机是：F1-scoring，其中正例是最主要的。可以用于比较构建的模型与在这些特定策略下的模型那个更好,如果构建的模型比随机预测的还差,或者高不到哪里去,那么说明该模型很差
php加密：3DES
loophome: https://github.com/lizhibin205/lizhibin-php-mcrypt
js:常用函数
yuntui_wiki: 0

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。