强化学习第3课：有些问题就像个赌局

最新推荐文章于 2024-06-16 06:30:00 发布

Alice熹爱学习

最新推荐文章于 2024-06-16 06:30:00 发布

阅读量285

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/84403405

版权

强化学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在横幅广告这个任务中，

网站就是它的 agent ，是可以采取一些行动的。

这个网站可以观察到用户们所浏览的网页，并且能够采取一个行动。

它的 action 就是，挑选一个横幅，然后运行网页时就展示这个横幅广告。

最后代理会拿到 feedback，就是这个用户是否点击了这个横幅广告。

其他的例子，例如药物治疗方面。

病人去看医生，医生就是这个 agent，医生观察一些症状，并给出一个治疗方案，然后会得到一个反馈，病人是否在治疗之后感觉好一些了等等。

再比如开个网店卖书，你有了一定的用户基础的，他们有一些个人数据，你想要卖尽可能多的书给他们，让他们满意并有意愿想买书，

这个问题中，如果想优化收入和用户满意度，要如何定义 agent ，action，feedback 呢？

agent 可以包括：用户的很多feature，他的兴趣，年龄，性别，之前买过的书，是否喜欢这些书，如果可能的话，还可以包括他的社交账号，

action可以是：当他访问你的页面时，你要向用户推荐特定的书

feedback可以是：你的用户是否喜欢这本书，或者你拿到了多少收入

这类问题通常叫做：多臂强盗问题（multi armed bandit problem），名字来源于赌博。

你可以假设你并没有尝试要给每个用户都推荐最佳的横幅广告，这样就相当于是一场赌博，

这种情况下，展示横幅广告就好比拉动老虎机的控制杆，这时你希望找到那个能给你带来最大回报的老虎机，或者找到用什么样的 strategy 来展示横幅可以让用户点击或者购买进而获得最高利润，

同理在推荐系统中也是如此，展示推荐广告并不一定要直接获得收入，你可以推荐一些电影，那么他可能就会变得开心，整体的幸福值就提升，就有可能购买。

而且你的 agent 是会影响环境的，在线广告这个例子中，你采取的任何一种行为都会影响你的用户基础，

当你给一些用户展示横幅，但用户在点击后并不满意，虽然开始时可能会发现点击率提高了，但之后你会失去你的用户基础，因为他们不满意你的广告活动。

所以有时可以获得一些粉丝甚至忠粉，也可能由于一些激进的广告失去一些粉丝，进而收入也变少。

学习资料：

Practical Reinforcement Learning

推荐阅读
历史技术博文链接汇总
也许可以找到你想要的：
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

Hello World ！

This is 不会停的蜗牛 Alice ！

? 要开始连载强化学习系列啦！

今天开始我们一起来每天 2 分钟，get 强化学习的一个小知识吧！

Alice熹爱学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。