AI 产品经理如何理解强化学习？

最新推荐文章于 2024-09-10 12:36:53 发布

辣卤牛肉面

最新推荐文章于 2024-09-10 12:36:53 发布

阅读量579

点赞数 16

文章标签：人工智能产品经理 langchain milvus 数据库 gpt

本文链接：https://blog.csdn.net/2301_76168381/article/details/142095002

版权

AI领域很多技术原理，都可以从人脑在现实世界中学习找到参照对应。随着社会智能化水平提升，智能体概念应用场景越来越广，提到智能体绕不过去的是强化学习技术，本篇探讨下AI产品经理对强化学习的理解。

高中错题本

通过强化学习技术训练智能体的原理是，智能体通过在环境中不断试错交互，获得环境的状态反馈和任务奖励反馈，以此不断积累数据，并不断调整智能体，通过海量的试错和应用，最终形成高质量的智能体（agent）。

上高中时候，每天都有大量的课程和习题，同时学校要求构建错题本，即专门将错题整理成册。这就构成了两套系统，一方面不断通过大量的习题和考试练习，大脑对知识的掌握获得快速的对与错的反馈；另一方面，通过整理错题本和不断加强对错题的理解和思考，可以对知识薄弱环节进行针对性提升。

实际执行下来，并非每个学生都能很好掌握错题本习惯其中的奥义。假设只大量练习，不加强错题本整理和分析，会出现不断的重复在同样知识上失分；假设只看错题本，而不做大量练习，就会存在训练不足，掌握知识的泛化和迁移性存疑，可能陷入信息茧房，甚至错题本本身内容也会成为无源之水。

因此，大量练习是必要的，温错题而知新也是必要的，最终导向更高的分数，这样的优化目标。这就是现实中的强化学习应用。

游戏智能体

强化学习出现时间不短，但目前商业化应用场景仍然比较有限，大量的强化学习研究和应用都在游戏领域。

上述提到强化学习需要通过大量的与环境交互产生数据，才能不断地将智能体训练的更加智能。往往现实场景难以具备这样的条件，因此训练强化学习智能体的前提，一个仿真模拟的环境就是必要条件。电子游戏的本身便是对现实或想象的仿真模拟，并且通过各种信息识别方式，反馈很容易收集与量化。

拿上古策略游戏《三国群英传1》举例，智能体训练目标便是最小化统一时间，进一步是最小化占领全部城池时间。在优化目标前提下，城池、路线、将领、兵种都是智能体可以不断试错的对象，通过观察-行动-反馈不断积累数据，为了加速数据积累，可以同时开大量并行线程，加速智能体的试错与迭代。

通过这种方式训练出来的智能体，只要训练数据足够海量，打游戏的效果大概率比大部分人强的。但带来的问题是，智能体可以快速做出策略行动时，但不一定能解释清楚背后的原因或机理，这就是强化学习智能体可解释性问题。对比来讲，人类玩家需要长年累月的玩同样游戏和总结经验，形成对于剧本策略、武将、兵种等认知，然后行动中根据机理理解进行明确策略执行。

大模型+强化学习

去年大模型的爆发，很多业内人士会觉得是工程领域的成果。预训练模型刚出现时，在没有做指令微调情况下，与大模型交互，经常会出现大量答非所问的情况，这个阶段即便大模型已经掌握了很多知识，也不具备可用性。

收集大量人类认知与交互数据后，通过指令微调，大模型加深了与人类对齐能力，少了无关输出，更具有可用性。但实际使用过程中，又会出现幻觉，即模型不知道自己不知道，也要给出回答。这里的问题是SFT只有正样例造成过强的信号导致大模型受到影响。

RLHF（人类强化学习反馈）将人类反馈的结果作为强化学习奖励（reward），对大模型进行强化学习模拟交互，给出的生成结果，经过人类排序，排序本身既包含了正反馈与负反馈，最终使大模型更加符合人类认知与偏好。

安全性与生活应用

强化学习之商业化应用有限，主要原因是在严肃决策场景如何保证可解释性与安全性问题。解决安全性问题有两种思路：即先划定安全空间，强化学习给出的策略在安全空间才采用；另外一种思路是，将强化学习作为优化目标的约束条件，这样强化学习给出的策略也能保证安全性。

强化学习虽然是AI技术，但我们日常生活中，仍可以借鉴强化学习的思想做刻意练习进行自我提升。例如日常梳理思路、写文章、与人复盘交流，都是不断从现实世界中抽象数据，进行针对性强化练习，将自己大脑训练的更加全面，更好适应生产生活的需要。

如何转行/入门AI产品经理？

🤔越来越多的人开始转行AI产品经理，毕竟大行情不是太好，对于刚毕业的研究生，想转行的互联网人，AI产品经理，确实是一个不错的方向，我在大厂做了多年的AI产品经理，还是想给大家一些经验和方向⏩

🔥AIGC在行业大火，AI产品经理到底要学哪些内容，和算法工程师有哪些区别，转行AI产品经理要学哪些东西，以下是整个学习思路和方向👇

1️⃣AI产品经理全局学习
2️⃣python系统学习
3️⃣机器学习&深度学习
4️⃣热门AI产品竞品分析
5️⃣AI产品设计学习
6️⃣AI产品0-1实操项目经验
7️⃣AI产品求职&面试

💎以上7点，看起来简单，内部内容其实很多，每一个篇章，展开都有夯实且丰富的内容，需要深度学习。

在这里插入图片描述

👉AI产品经理大模型视频和书籍PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉获取方式：

😝文章篇幅有限，详细资料有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

辣卤牛肉面

关注

16
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
AI 产品经理如何理解强化学习？

AI领域很多技术原理，都可以从人脑在现实世界中学习找到参照对应。随着社会智能化水平提升，智能体概念应用场景越来越广，提到智能体绕不过去的是强化学习技术，本篇探讨下AI产品经理对强化学习的理解。
复制链接

扫一扫