当你发现搜集有label的资料很困难的时候,正确答案也不知道的时候,可以考虑用RL
1.Looking for a Function
Step1:Function with unknown
Input of neural network:the observation of machine represented as a vector or a matrix
Ouput neural network: each action corresponds to a neuron in output layer.
设计一个网络,当给输入的时候,输出会得到几个action得到相应的分数(如李老师ppt演示)
Step2:Define "Loss"
首先定义Total reward(return):
这个R就是我们想要最大化的东西
Step3:Optimization
轨迹
将所有的r求和得到
找一组Network的参数,放在Actor里面,使越大越好