2017年10月_竹子攀岩

10月

翻译关于人工智能的小知识总结

1、Q-learning和policy-gradient有什么区别？ Q-learning 基于值函数估计的强化学习方法，policy-gradient是一种策略搜索强化学习方法。与机器学习中的方法做类比，前者可以与朴素贝叶斯作类比，通过估计后验概率得到预测，后者可以与SVM作类比，不估计后验概率而直接优化学习目标。关于解空间的问题：解空间（策略空间）不是由求解方法确定的，而是由策略模型

2017-10-28 14:50:31 1317

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

翻译 关于人工智能的小知识总结

空空如也

空空如也

翻译关于人工智能的小知识总结