大一暑假学习热情颇高却又贪多求快,囫囵吞枣地花了几天刷了一遍Python机器学习入门课程,很快就什么都不记得了。之后一年半多,也没有什么需要用到机器学习的地方,加上断断续续学了C++,连Python语法都快忘光了。
时隔近两年,这个blog要重新更新了。这次会在三周内更新完Python机器学习的内容,再花三个月左右的时间另起blog,更新吴恩达机器学习课程笔记和深度学习基础部分。希望Flag不倒!
【啊啊啊强化学习真的啥都不懂……Orz】
s∈S:有限状态state集合,s表示某个特定状态
a∈A:有限动作action集合,a表示某个特定动作
马尔可夫决策过程(MarkovDecision Process)
智能体(agent)根据当前对环境的观察采取动作获得环境的反馈,并使环境发生改变的循环过程。
蒙特卡洛强化学习
蒙特卡洛强化学习是一种不依赖于环境建模的学习算法,此类算法称为免模型学习。蒙特卡洛强化学习使用多次采样,