線上課程
文章平均质量分 83
傷心太平洋
这个作者很懒,什么都没留下…
展开
-
[課程筆記] 機器學習2021(李弘毅) L13. Transformer (下)
参考李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五)原创 2022-05-15 19:03:20 · 234 阅读 · 0 评论 -
[課程筆記] 機器學習2021(李弘毅) L33.概述增強式學習(五)
L5. No Reward: Learning from DemonstrationMotivation许多场景下,奖励难以被定义,像是: 自驾车 即使是人类設計奖励,若不够周全,机器会学错 机械公敌中,机器人神逻辑,把保护人类解释成监禁人类 人設計的奖励不一定是最好的Imitation Learning在没有 reward 的情况下,可以利用专家的行为来训练模型Isn't it supervised learning?模仿专家的行为,是一种 behavio.原创 2022-03-09 00:31:48 · 642 阅读 · 0 评论 -
[課程筆記] 機器學習2021(李弘毅) L32.概述增強式學習(四)
Reward ShapingSparse Reward许多场景中,大多数情况下并没有奖励,像是: 围棋: 平常落子没有奖励,只有棋局结束时才有奖励(输/赢) 机器人栓螺丝: 大多数动作都没有奖励,只有成功栓螺丝才有奖励 人类可以想办法设计额外的奖励来帮助学习,类似短期目标Reward Shaping游戏中的得分机制,只有杀死敌人或是被敌人杀死会影响分数 这表示大部分的行为没有奖励 可以设计短期目标,帮助机器学习: 扣血: 负奖励 (更容易死亡) 待在原地:负奖..原创 2022-03-09 00:01:21 · 682 阅读 · 0 评论 -
[課程筆記] 機器學習2021(李弘毅) L31.概述增強式學習(三)
Actor CriticCriticCritic : 用来判断 actorθ 在 observings (并采取 action a) 的条件下,情势的好坏 Value function:用来预测 actorθ 在 observings 的条件下,接下来能获得的总奖励值 Critic 与Value function 会随着 Actor 不同而不同,举例来说: 厉害的 Actor 在看到很多外星人时,判断情势是好的 (因为可以杀很多怪来得分) 弱小的 Actor 在看到...原创 2022-03-08 23:33:13 · 626 阅读 · 0 评论 -
[課程筆記] 機器學習2021(李弘毅) L30.概述增強式學習(二)
B. Policy Gradient1. How to control your actorVersion 0.上一課所提到重要性,可以使用當下獲得的獎勵 來代替 這樣做的問題是,actor 變得短視近利,只考慮下一刻是否得到獎勵 事實上,在每個 episode 中,actor 大部分行為影響的不只是當下獎勵,也會影響未來獲得的獎勵,這個現象又稱為 reward delay 以 space invader 為例子,如果 actor 都只考慮當下的獎勵,則他只會學到不斷開火 (因為移..原创 2022-03-01 23:01:56 · 483 阅读 · 0 评论 -
[課程筆記] 機器學習2021(李弘毅) L29.概述增強式學習(一)
目录A. What is RL ?1. Machine learning ~ Looking for a Function2. Example: Playing Video Game3. Example: Learning to playGo4. Machine Learning is so SimpleStep 1. Function with unknownStep 2. Define lossStep 3. OptimizationB. Policy Gradie.原创 2022-03-01 21:36:44 · 3624 阅读 · 0 评论 -
[課程筆記] 強化學習(李弘毅) L1. Policy Gradient
1. 強化學習的基本組件Actor : 負責操縱行為 (我們可以控制調整) Env : 環境,Actor 行為會與之互動 (我們無法控制調整) Reward : Actor 在 Env 中做出特定行為時的獎勵 (我們無法控制調整)2. Policy of ActorActor 中具有 Policy,負責決定 Actor 在特定條件下的行為 若我們使用 NN 來實現policy,則: NN 參數 : NN 輸入 :actor 的觀察 NN 輸出 : 根據輸入,...原创 2022-02-28 13:04:03 · 3004 阅读 · 0 评论