机器学习第五讲：强化学习 → 电子宠物狗试错学习，做对给虚拟奖励

kovlistudio

已于 2025-05-12 10:58:35 修改

阅读量696

点赞数 9

分类专栏：机器学习人工智能技术文章标签：机器学习学习人工智能

于 2025-05-10 14:20:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kovlistudio/article/details/147852654

版权

技术同时被 3 个专栏收录

75 篇文章

订阅专栏

26 篇文章

订阅专栏

26 篇文章

订阅专栏

机器学习第五讲：强化学习 → 电子宠物狗试错学习，做对给虚拟奖励

资料取自《零基础学机器学习》。
查看总目录：学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章：DeepSeek R1本地与线上满血版部署：超详细手把手指南

一、核心生活比喻：训练电子狗秘籍 🐶（教材第五章入门案例¹）

真实模拟场景：
刚出生的电子狗有三个基本能力：

训练规则：

二、完整学习周期解析 🔄（教材第五章训练流程²）

以「学接飞盘」为例的完整训练过程：

三、关键技术要素拆解 ⚙️

价值函数（Value Function）
像电子狗记分板，计算每个动作的长期收益：
```
向右转可能奖励：立即得5分 + 未来30秒预期20分 = 总价值25分
```
探索与利用的平衡（教材第五章重要概念³）
马尔可夫决策过程
每次决策只关注当前状况（电子狗不会纠结之前撞墙的失误）

四、对比传统学习方式 🆚

对比维度	监督学习	强化学习
反馈方式	老师批改试卷	环境给出实时评分
学习目标	记住标准答案	探索得分最大化路径
数据特性	静态历史数据	动态交互生成数据
典型场景	房价预测	游戏AI成长

五、现实应用全景图 🌟

游戏领域
- 《星际争霸》AI对战世界冠军
- 赛车游戏自动驾驶模块训练
工业控制
- 机械臂自学抓取不规则零件
- 数据中心智能调节空调节能
新兴领域
- 对话机器人自主学习话术（如ChatGPT训练机制）
- 蛋白质折叠预测（AlphaFold核心原理）

六、入门训练模型演示 🕹️

迷宫找宝箱任务：

学习曲线：
前10次平均得分：-15分 → 第100次平均得分：+82分

七、核心限制与挑战 🚧（教材第五章注意事项⁴）

奖励设计陷阱
过度奖励前进速度导致电子狗撞墙次数激增
维度灾难
当电子狗需要控制20个关节时，可能产生百万级决策路径
现实迁移难题
虚拟训练完美的接飞盘技能，遇到现实风速变化仍会失败

八、精要总结 💎

强化学习本质是让智能体像生物进化般，在持续的环境交互中通过「尝试-反馈-优化」的循环，逐步掌握达成目标的最佳策略（教材第五章核心结论¹）

（如波士顿动力机器人自学家用物品整理技能🧹，其训练机制就采用了深度强化学习）

目录：总目录
上篇文章：机器学习第四讲：无监督学习 → 给无标签积木自由组合，发现隐藏规律
下篇文章：机器学习第六讲：向量/矩阵 → 数据表格的数学表达，如Excel表格转数字阵列

《零基础学机器学习》第五章第一节"强化学习基本范式"，P.202 ↩︎ ↩︎
《零基础学机器学习》第五章案例5-2"虚拟训练流程"，P.215-218 ↩︎
《零基础学机器学习》第五章第三节"探索利用平衡"，P.228 ↩︎
《零基础学机器学习》第五章第八节"技术挑战"，P.247 ↩︎

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

kovlistudio 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。