强化学习
文章平均质量分 81
日暮途远.
这个作者很懒,什么都没留下…
展开
-
强化学习基础理论
知识结构定义强化学习(Reinforcement learning),与监督学习,无监督学习是类似的,是一种统称的学习方式。它主要利用智能体与环境进行交互,从而学习到能获得良好结果的策略。与有监督学习不同,强化学习的动作并没有明确的标注信息,只有来自环境的反馈的奖励信息,它通常具有一定的滞后性,用于反映动作的“好与坏”。参考资料:https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0基础理论基本概念4原创 2021-10-16 15:44:15 · 2637 阅读 · 0 评论 -
Pytorch强化学习算法实现
Policy Gradient算法实现Policy Gradient算法的思想在另一篇博客中有介绍了,下面是算法的具体实现。Policy网络两个线性层,中间使用Relu激活函数连接,最后连接softmax输出每个动作的概率。class PolicyNet(nn.Module): def __init__(self,n_states_num,n_actions_num,hidden_size): super(PolicyNet, self).__init__()原创 2021-10-16 15:37:55 · 1874 阅读 · 1 评论