from视频: https://www.youtube.com/watch?v=XWukX-ayIrs
Outline
What is RL?(Three steps in ML)
机器学习 三步骤
Step1:Function with Unknown
采取sample,更多随机性
Step2: Define “Loss”
Step3:Optimization
Policy Gradient
How to control your actor
控制 Actor的行为?
增加An控制程度
Version 0【短视的】【范例程式】
Version 1, 2【评估之后的事情,距离衰减系数 】
添加 距离衰减系数