本博客上的文章分为两类:一类是科普性文章,以通俗易懂的语言风格介绍专业性的概念及其应用场景(公式极少或没有),适合入门阶段。另一类是专业性文章,在科普阶段上做出详细的专业性数学推导,深刻理解其概念的内涵,适合进阶。
本篇目录
- 什么是强化学习?
- 什么是K-摇臂赌博机问题?
- 什么是EE困境?
- 常见的解决EE困境办法的方法以及它们之间的差异?
1、 什么是强化学习?
近几年来,人工智能与大数据的概念逐渐“深入人心”,相关报道常见于微博、公众号等宣传媒介上,在人工智能这一个大的概念下,有许许多多的“学习”,比如,深度学习,模仿学习,强化学习等。那么有一个问题随之而来,什么是“学习”?百度百科上,对学习的解释为:“通过阅读、听讲、思考、研究、实践等途径获得知识或技能的过程”。上面的解释是基于人类学习来说的。类似的,机器的“学习”(或者说人工智能算法中的“学习”)是指通过大量的数据尝试或训练后,获得了学习算法中合理的参数值(算法中的参数值可以理解为人类的技能或知识),从而尽可能达到算法的目标。
如何理解强化学习的概念?强化学习是一种模拟人类学习知识技能的一种方式,它通过不断地获取周围环境的反馈来达到学习的目的。也就是说,指强化学习算法根据当前环境做出判断,并选择了相应的动作措施,从而带来了环境状态的改变,环境的改变带来了潜在的“奖赏值”,相应地,“奖