机器学习之强化学习算法

强化学习算法简介

强化学习算法包括:

Model-Based VS Model-Free

Model-Based算法

agent可以根据模型预测下一步的结果,并提前规划行动路径。但真实模型和学习到的模型是有误差的,这种误差会导致agent虽然在模型中表现很好,但是在真实环境中可能打不到预期结果。

Model-Free算法

Model-Free的算法看似随意,但这恰好更易于研究者们去实现和调整。比如:Q-learning和SARSA

基于概率 VS 基于价值

基于概率的算法

 基于概率的算法直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。每种动作都有可能被选中, 只是可能性不同。基于概率的算法的代表算法为policy-gradient。

基于价值的算法

基于价值的算法输出的则是所有动作的价值, 然后根据最高价值来选择动作, 相比基于概率的方法, 基于价值的决策部分更为死板——只选价值最高的,而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到它。基于价值的算法的代表算法为Q-Learning。

强化学习算法的应用

 交互性检索是在检索用户不能构建良好的检索式(关键词)的情况下,通过与检索平台交流互动并不断修改检索式,从而获得较准确检索结果的过程。

新闻推荐需要:获取用户请求,召回候选新闻,对候选新闻进行排序,最终给用户推出新闻。

       将用户持续浏览新闻的推荐过程看成一个决策过程,通过强化学习学习每一次推荐的最佳策略,提高用户的点击率。无人驾驶:被认为是强化学习短期内能技术落地的一个应用方向,很多公司投入大量资源在无人驾驶上,其中百度的无人巴士“阿波龙”已经在北京、武汉等地展开试运营,自动无人驾驶的行车视野如下图所示。

游戏领域:强化学习在游戏中的应用非常广泛。例如,在电子游戏中,强化学习算法可以训练智能体来学习如何玩游戏,并制定最佳策略来获得高分或战胜对手。AlphaGo就是一个成功的示例,它通过强化学习击败了世界冠军围棋选手。

未来生活中,深度学习算法在交通领域的应用,可能会创造出一个完全智能调度的移动出行网络。

小结

深度学习的应用领域。

卷积神经网络可以模拟人类处理视觉信息的方式提取图像特征,极大地推动了计算机视觉领域的发展。

自然语言处理是典型的时序信息分析问题,其主要应用包括句法分析、情感分类、机器翻译等。

强化学习强调智能体与环境的交互与决策,具有广泛的应用价值。通过引入深度学习,模型的函数拟合能力得到了显著的提升,从而可以应用到一系列高层任务中。 本章列出的三个应用领域只是举例,目前还有许多领域在深度学习技术的推动下进行着变革。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值