机器学习的方法
监督学习 (supervised learning)
- 有数据和标签的监督学习
非监督学习 (unsupervised learning)
- 只有数据,没有标签的非监督学习
半监督学习 (semi-supervised learning)
- 结合了监督学习和非监督学习的半监督学习
强化学习 (reinforcement learning)
- 从经验中总结提升的强化学习
遗传算法 (genetic algorithm)
- 类似于强化学习,有着适者生存,不适者淘汰准则的遗传算法
强化学习算法的分类
强化学习算法
Q-Learning(单步更新的)
epsilon 贪婪策略(在刚开始训练 Q 函数时,我们必须有一个大的 epsilon。随着智能体对估算出的 Q 值更有把握,我们将逐渐减小 epsilon。)
Q-Table(行为状态,列为动作的表格,代码中表现为数组的形式;可以根据之前每个状态上的每一个动作,来计算未来最大奖励期望)