强化学习算法简介
强化学习算法包括:
Model-Based VS Model-Free
Model-Based算法
agent可以根据模型预测下一步的结果,并提前规划行动路径。但真实模型和学习到的模型是有误差的,这种误差会导致agent虽然在模型中表现很好,但是在真实环境中可能打不到预期结果。
Model-Free算法
Model-Free的算法看似随意,但这恰好更易于研究者们去实现和调整。比如:Q-learning和SARSA
基于概率 VS 基于价值
基于概率的算法
基于概率的算法直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。每种动作都有可能被选中, 只是可能性不同。基于概率的算法的代表算法为policy-gradient。
基于价值的算法
基于价值的算法输出的则是所有动作的价值, 然后根据最高价值来选择动作, 相比基于概率的方法, 基于价值的决策部分更为死板——只选价值最高的,而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到它。基于价值的算法的代表算法为Q-Learning。
强化学习算法的应用
交互性检索是在检索用户不能构建良好的检索式(关键词)的情况下,通过与检索平台交流互动并不断修改检索式,从而获得较准确检索结果的过程。
新闻推荐需要:获取用户请求,召回候选新闻,对候选新闻进行排序,最终给用户推出新闻。
将用户持续浏览新闻的推荐过程看成一个决策过程,通过强化学习学习每一次推荐的最佳策略,提高用户的点击率。无人驾驶:被认为是强化学习短期内能技术落地的一个应用方向,很多公司投入大量资源在无人驾驶上,其中百度的无人巴士“阿波龙”已经在北京、武汉等地展开试运营,自动无人驾驶的行车视野如下图所示。
游戏领域:强化学习在游戏中的应用非常广泛。例如,在电子游戏中,强化学习算法可以训练智能体来学习如何玩游戏,并制定最佳策略来获得高分或战胜对手。AlphaGo就是一个成功的示例,它通过强化学习击败了世界冠军围棋选手。
未来生活中,深度学习算法在交通领域的应用,可能会创造出一个完全智能调度的移动出行网络。
小结
深度学习的应用领域。
卷积神经网络可以模拟人类处理视觉信息的方式提取图像特征,极大地推动了计算机视觉领域的发展。
自然语言处理是典型的时序信息分析问题,其主要应用包括句法分析、情感分类、机器翻译等。
强化学习强调智能体与环境的交互与决策,具有广泛的应用价值。通过引入深度学习,模型的函数拟合能力得到了显著的提升,从而可以应用到一系列高层任务中。 本章列出的三个应用领域只是举例,目前还有许多领域在深度学习技术的推动下进行着变革。