关于人工智能的小知识总结

1、Q-learning和policy-gradient有什么区别?

Q-learning 基于值函数估计的强化学习方法,policy-gradient是一种策略搜索强化学习方法。与机器学习中的方法做类比,前者可以与朴素贝叶斯作类比,通过估计后验概率得到预测,后者可以与SVM作类比,不估计后验概率而直接优化学习目标。

关于解空间的问题:

解空间(策略空间)不是由求解方法确定的,而是由策略模型确定的。两者可以使用相同的模型,例如,相同大小的神经网络,这时,他们的解空间是一样的。

Q-learning在离散状态空间中理论上可以收敛到最优策略,但是收敛速度可能极慢。policy-gradient可以解决q-learning在连续空间和高维度上不能收敛的问题,使用的是梯度方法来求解,缺点是,只能收敛到不动点(局部最优),不能证明收敛到最优策略。

2、AlphaGo 用了哪些人工智能技术?核心技术有哪些?

AlphaGo的大脑分成了四个部分:快速感知脑、深度模仿脑(12层的deep learning)、自学成长脑(reinforcement learning)、全局分析脑。使用了蒙特卡洛树的搜索策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值