机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励

机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励

资料取自《零基础学机器学习》
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、核心生活比喻:训练电子狗秘籍 🐶(教材第五章入门案例1

真实模拟场景
刚出生的电子狗有三个基本能力:

电子狗宝宝
向前走
左转右转
张嘴咬

训练规则

撞墙→扣10分
捡到骨头→+50分
找到水源→+30分
做出动作
环境反馈
Penalty
Reward

二、完整学习周期解析 🔄(教材第五章训练流程2

以「学接飞盘」为例的完整训练过程:

2023-10-01 2023-10-03 2023-10-05 2023-10-07 2023-10-09 2023-10-11 2023-10-13 2023-10-15 2023-10-17 2023-10-19 2023-10-21 2023-10-23 随机扑跳 首次成功接住 建立条件反射 预判飞行轨迹 高难度花式接盘 训练阶段 熟练阶段 强化学习训练阶段

三、关键技术要素拆解 ⚙️

  1. 价值函数(Value Function)
    像电子狗记分板,计算每个动作的长期收益:

    向右转可能奖励:立即得5分 + 未来30秒预期20分 = 总价值25分
    
  2. 探索与利用的平衡(教材第五章重要概念3

    40% 60% 行为决策比例 尝试新路线(探索) 走熟悉路线(利用)
  3. 马尔可夫决策过程
    每次决策只关注当前状况(电子狗不会纠结之前撞墙的失误)


四、对比传统学习方式 🆚

对比维度监督学习强化学习
反馈方式老师批改试卷环境给出实时评分
学习目标记住标准答案探索得分最大化路径
数据特性静态历史数据动态交互生成数据
典型场景房价预测游戏AI成长

五、现实应用全景图 🌟

  1. 游戏领域

    • 《星际争霸》AI对战世界冠军
    • 赛车游戏自动驾驶模块训练
  2. 工业控制

    • 机械臂自学抓取不规则零件
    • 数据中心智能调节空调节能
  3. 新兴领域

    • 对话机器人自主学习话术(如ChatGPT训练机制)
    • 蛋白质折叠预测(AlphaFold核心原理)

六、入门训练模型演示 🕹️

迷宫找宝箱任务

直行→碰壁-2分
右转→进入通道+1分
左转→找到宝箱+100分
Start
A
B
End

学习曲线
前10次平均得分:-15分 → 第100次平均得分:+82分


七、核心限制与挑战 🚧(教材第五章注意事项4

  1. 奖励设计陷阱
    过度奖励前进速度导致电子狗撞墙次数激增

  2. 维度灾难
    当电子狗需要控制20个关节时,可能产生百万级决策路径

  3. 现实迁移难题
    虚拟训练完美的接飞盘技能,遇到现实风速变化仍会失败


八、精要总结 💎

强化学习本质是让智能体像生物进化般,在持续的环境交互中通过「尝试-反馈-优化」的循环,逐步掌握达成目标的最佳策略(教材第五章核心结论1

(如波士顿动力机器人自学家用物品整理技能🧹,其训练机制就采用了深度强化学习)

目录:总目录
上篇文章:机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律
下篇文章:机器学习第六讲:向量/矩阵 → 数据表格的数学表达,如Excel表格转数字阵列



  1. 《零基础学机器学习》第五章第一节"强化学习基本范式",P.202 ↩︎ ↩︎

  2. 《零基础学机器学习》第五章案例5-2"虚拟训练流程",P.215-218 ↩︎

  3. 《零基础学机器学习》第五章第三节"探索利用平衡",P.228 ↩︎

  4. 《零基础学机器学习》第五章第八节"技术挑战",P.247 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kovlistudio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值