强化学习第1课：像学自行车一样的强化学习

最新推荐文章于 2021-01-04 10:21:53 发布

Alice熹爱学习

最新推荐文章于 2021-01-04 10:21:53 发布

阅读量397

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/84403376

版权

本文介绍了强化学习的概念，对比了它与监督学习的区别。在监督学习中，数据有限可能导致模型过于依赖特定场景。而强化学习通过不断试错来学习，如同学习骑自行车，强调实践的重要性。文章以圣诞节广告点击预测为例，说明了强化学习在应对环境变化时的优势。

摘要由CSDN通过智能技术生成

机器学习算法主要可以分为监督式，非监督式，强化学习三类。

在监督式学习中，我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树，线性回归等模型，然后训练这些模型使损失函数达到最小。

例如我们有一个横幅广告预测点击率的问题：

横幅的特征可以是，主题，想要推广的内容，挂在哪个页面，会浏览这个页面的用户的特征。
想要预测的变量只有一个，就是用户是否会点击这个横幅广告。

这时我们可能想要用一些监督式学习的模型，但是有个问题是我们并没有那么多数据，没办法知道每个横幅每个页面每个用户的行为。

虽然在没有数据的情况下，也可以想办法用监督式学习。

例如，可以随机发一些广告，随机的给一些人，随机的选择位置，来生成一些数据，
然后记录用户是否点击进去，不过大多数情况下用户是不点击的。
这样有了这些数据后，就可以应用一些算法，进行预测。

但是有个问题，就算你用这些数据进行预测了，训练了模型了，但是并不敢直接用这个模型得出的决策，
就算用户第一次点击了你发送的广告，但是如果太频繁地发送同样的广告，就会失去用户的信任，
所以我们可能想要尝试一些对用户有益的内容，想要让用户更开心，这

最低0.47元/天解锁文章

Alice熹爱学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。