强化学习7日打卡
愚昧之山绝望之谷开悟之坡
人工智能智慧城市元宇宙pf,无无明亦无无明尽
展开
-
3-基于神经网络方法求解RL
课程目录 PARL里面 可视化的话,本地CPU跑即可 总收益是知道的,然后递推路往之前的路径去推 状态越来越多,数不过来 值函数近似Q表格 神经网络去拟合函数 拟合函数 初步理解神经网络 DQN在一些方面,像素级别的图像,输出动作,超越人类,本质是Q-learning 对比 类比有监督学习 经验回放,打乱顺序 经验回放 在一段时间固定目标值 亮点 层级抽取出来 框架,嵌套的方式,抽象出来更简洁明了 model函数,多少个状态生产多少个Q值 算法部分,生成目标 定期.原创 2021-09-01 23:27:16 · 184 阅读 · 0 评论 -
2-基于表格型方法求解RL
今日事今日毕,拖延只会消耗更多的时间 下一个时刻的环境状态只和当前的环境状态以及当前的动作决策有关,和之前的时刻无关,符合隐马尔可夫的规律 当前时刻的状态(环境)和当前时刻的动作(智能体),奖励是有延迟性的,在下一个时刻才能知道奖励rt的结果 大部分是位置的,本质是动态规划 就是不断的尝试 Q表格,当前状态s和动作a得出来最大的价值,后面的收益大小 当前的受益是未来的受益加起来的 虽然关注的是总收益,目光放的太长也不太好 悬崖问题 未来的受益就是达到最终目标的时候,是最大的受益,距离目标越原创 2021-09-01 22:43:25 · 150 阅读 · 0 评论 -
1-强化学习(RL)初印象
要不就是遗传(初始化),要不就是模仿人学习(教师模型),环境学习(强化学习) 和环境的交互学习,又分为已知环境和未知环境的学习 学习路线,论文复现后就是前沿论文的追踪阅读 经典教材 就是跟环境的交互而已 两部分,三要素。state(全局状态)和observation(局部)在多智能体中 Flappy bird 乒乓球 有奖励延迟 走迷宫 运动与平衡 个性化推荐 股票市场 交通治理 强化学习应用路线 关系,和deep learning有交集 对比,监督,任务驱动(回归分类),无监原创 2021-08-30 10:24:18 · 121 阅读 · 0 评论