2022-01 task01 强化学习基础(教程第一章+对应习题)(2天)
强化学习(Reinforcement Learning) 用来学习如何做出一系列好的决策。一个智能体(agent)怎么在一个复杂不确定的环境(environment)里面极大化能获得的奖励。agent在环境里面获得状态,利用这个状态输出一个动作action(决策),然后这个决策会放到环境中去,环境根据agent采取的决策,输出下一个状态以及当前动作action(决策)得到的奖励。Agent的目的是为了尽可能多的从环境中获得奖励。人工智能的基本挑战是学习在不确定的情况下做出的好的决策。监督学习:1)输入的数据
原创
2022-07-12 16:38:34 ·
1153 阅读 ·
0 评论