强化学习
文章平均质量分 79
强化学习基础知识介绍及实践。
LXYTSOS
计算机视觉与强化学习。
展开
-
强化学习形式与关系
在强化学习中有这么几个术语:智能体(Agent),环境(Environment),动作(Action),奖励(Reward),状态(State,有些地方称作观察,Observation)。原创 2021-02-22 16:38:21 · 442 阅读 · 0 评论 -
初识强化学习,什么是强化学习?
相信很多人都听过“机器学习”和“深度学习”,但是听过“强化学习”的人可能没有那么多,那么,什么是强化学习呢?强化学习是机器学习的一个子领域,它可以随着时间的推移自动学习到最优的策略。在我们不断变化的纷繁复杂的世界里,从更广的角度来看,即使是单纯的静态的输入-输出型问题也会变成动态的问题。例如,对于一个简单的监督式学习任务——猫狗分类。你收集到了一些训练数据,然后用你最喜欢的深度学习框架写了一个分类网络进行训练,很快模型收敛,效果拔群,因此你将这个模型部署上线,过了一段时间一些狗的狗毛修剪方式发生了改变,原创 2021-02-20 15:35:15 · 536 阅读 · 0 评论 -
强化学习-马尔可夫决策过程(MDP)
强化学习,是机器学习领域中,除监督学习、非监督学习之外,第三种学习范式。在强化学习中,智能体在环境中通过执行各种动作来与之交互,做完每个动作后都会得到一个环境反馈的奖励值,智能体的目标就是通过一系列的交互,来学习到一种策略,使得它收到的总奖励值最大。马尔可夫马尔科夫性:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。具有马尔可夫性质的过..原创 2021-01-14 11:15:20 · 1039 阅读 · 2 评论