强化学习第1课:像学自行车一样的强化学习

本文介绍了强化学习的概念,对比了它与监督学习的区别。在监督学习中,数据有限可能导致模型过于依赖特定场景。而强化学习通过不断试错来学习,如同学习骑自行车,强调实践的重要性。文章以圣诞节广告点击预测为例,说明了强化学习在应对环境变化时的优势。
摘要由CSDN通过智能技术生成

机器学习算法主要可以分为监督式,非监督式,强化学习三类。

在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。

例如我们有一个横幅广告预测点击率的问题:

横幅的特征可以是,主题,想要推广的内容,挂在哪个页面,会浏览这个页面的用户的特征。
想要预测的变量只有一个,就是用户是否会点击这个横幅广告。

这时我们可能想要用一些监督式学习的模型,但是有个问题是我们并没有那么多数据,没办法知道每个横幅每个页面每个用户的行为。

虽然在没有数据的情况下,也可以想办法用监督式学习

例如,可以随机发一些广告,随机的给一些人,随机的选择位置,来生成一些数据,
然后记录用户是否点击进去,不过大多数情况下用户是不点击的。
这样有了这些数据后,就可以应用一些算法,进行预测。

但是有个问题,就算你用这些数据进行预测了,训练了模型了,但是并不敢直接用这个模型得出的决策,
就算用户第一次点击了你发送的广告,但是如果太频繁地发送同样的广告,就会失去用户的信任,
所以我们可能想要尝试一些对用户有益的内容,想要让用户更开心,这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值