强化学习
L先生AI课堂
李虎,联想集团PCSD业务UDS平台推荐算法团队开发负责人,曾获2018-2019年度联想集团中国区优秀员工。在联想内部,做过多次企业内训和技术支持,并在北京线下技术沙龙分享会上作为演讲嘉宾分享算法实战应用效果,拥有丰富的线上,线下培训经验。对机器学习,深度学习算法建模,推荐系统,大数据有多年的实际经验。CSDN博客专家,著有大白话算法系列,以通俗生动的方式讲解人工智能前沿算法。愿景是打造全网AI最通俗教学,赠人玫瑰,手有余香,在人工智能前行的路上一起前行,以通俗简洁详细的方式,让每一位热爱着深入其中。空间有形、梦想无限!加油!
展开
-
【强化学习篇】--强化学习案例详解一
一、前述本文通过一个案例来讲解Q-Learning二、具体1、案例假设我们需要走到5房间。转变为如下图:先构造奖励,达到5,即能够走得5的action则说明奖励比较高设置成100,没有达到5说明奖励比较低,设置成0。Q-learning实现步骤:2、案例详解:第一步的Q(1,5):最开始的Q矩阵都是零矩阵,迭代完之后Q(1,5)是...原创 2018-06-30 23:09:00 · 6724 阅读 · 3 评论 -
【强化学习篇】--强化学习从初识到应用
一、前述强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。通俗点说:学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为,必须在尝试了之后才能发现哪些行为会导致奖励的最大化,当前的行为可能不仅仅会影响即时奖励,还会影响下...原创 2018-06-30 16:46:00 · 3844 阅读 · 0 评论