关于人工智能的小知识总结

最新推荐文章于 2024-07-20 10:30:00 发布

竹子攀岩

最新推荐文章于 2024-07-20 10:30:00 发布

阅读量1.3k

点赞数

1、Q-learning和policy-gradient有什么区别？

Q-learning 基于值函数估计的强化学习方法，policy-gradient是一种策略搜索强化学习方法。与机器学习中的方法做类比，前者可以与朴素贝叶斯作类比，通过估计后验概率得到预测，后者可以与SVM作类比，不估计后验概率而直接优化学习目标。

关于解空间的问题：

解空间（策略空间）不是由求解方法确定的，而是由策略模型确定的。两者可以使用相同的模型，例如，相同大小的神经网络，这时，他们的解空间是一样的。

Q-learning在离散状态空间中理论上可以收敛到最优策略，但是收敛速度可能极慢。policy-gradient可以解决q-learning在连续空间和高维度上不能收敛的问题，使用的是梯度方法来求解，缺点是，只能收敛到不动点（局部最优），不能证明收敛到最优策略。

2、AlphaGo 用了哪些人工智能技术？核心技术有哪些？

AlphaGo的大脑分成了四个部分：快速感知脑、深度模仿脑（12层的deep learning）、自学成长脑（reinforcement learning）、全局分析脑。使用了蒙特卡洛树的搜索策略。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。