机器学习概念 & 强化学习算法 - 笔记

机器学习的方法

监督学习 (supervised learning)
  • 有数据和标签的监督学习
非监督学习 (unsupervised learning)
  • 只有数据,没有标签的非监督学习
半监督学习 (semi-supervised learning)
  • 结合了监督学习和非监督学习的半监督学习
强化学习 (reinforcement learning)
  • 从经验中总结提升的强化学习
遗传算法 (genetic algorithm)
  • 类似于强化学习,有着适者生存,不适者淘汰准则的遗传算法

强化学习算法的分类

强化学习算法

Q-Learning(单步更新的)

epsilon 贪婪策略(在刚开始训练 Q 函数时,我们必须有一个大的 epsilon。随着智能体对估算出的 Q 值更有把握,我们将逐渐减小 epsilon。)
Q-Table(行为状态,列为动作的表格,代码中表现为数组的形式;可以根据之前每个状态上的每一个动作,来计算未来最大奖励期望)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值