- 博客(1)
- 收藏
- 关注
翻译 关于人工智能的小知识总结
1、Q-learning和policy-gradient有什么区别? Q-learning 基于值函数估计的强化学习方法,policy-gradient是一种策略搜索强化学习方法。与机器学习中的方法做类比,前者可以与朴素贝叶斯作类比,通过估计后验概率得到预测,后者可以与SVM作类比,不估计后验概率而直接优化学习目标。 关于解空间的问题: 解空间(策略空间)不是由求解方法确定的,而是由策略模型
2017-10-28 14:50:31 1317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人