1、Q-learning和policy-gradient有什么区别?
Q-learning 基于值函数估计的强化学习方法,policy-gradient是一种策略搜索强化学习方法。与机器学习中的方法做类比,前者可以与朴素贝叶斯作类比,通过估计后验概率得到预测,后者可以与SVM作类比,不估计后验概率而直接优化学习目标。
关于解空间的问题:
解空间(策略空间)不是由求解方法确定的,而是由策略模型确定的。两者可以使用相同的模型,例如,相同大小的神经网络,这时,他们的解空间是一样的。
Q-learning在离散状态空间中理论上可以收敛到最优策略,但是收敛速度可能极慢。policy-gradient可以解决q-learning在连续空间和高维度上不能收敛的问题,使用的是梯度方法来求解,缺点是,只能收敛到不动点(局部最优),不能证明收敛到最优策略。
2、AlphaGo 用了哪些人工智能技术?核心技术有哪些?
AlphaGo的大脑分成了四个部分:快速感知脑、深度模仿脑(12层的deep learning)、自学成长脑(reinforcement learning)、全局分析脑。使用了蒙特卡洛树的搜索策略。