两个游戏认识增强学习
增强学习是关于决策优化的科学,其背后正是生物趋利避害的本能。
大家都听过“熊瞎子掰苞米”的故事,“熊瞎子掰苞米”就是一个典型的决策过程。
因为胳肢窝只能夹一个苞米,所以对每个苞米,熊瞎子都要做一个决策——掰,还是不掰?这是个问题。
在俗话故事里,熊瞎子并不知道自己掰一个丢一个,所以他的决策就是“掰掰掰”(Buy, Buy, Buy),最后结果就是拿了一个很小的苞米,后悔地想要剁手。而聪明的智...
转载
2019-01-02 11:38:47 ·
366 阅读 ·
0 评论