![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 77
不懂科研的游鱼
打工人...
展开
-
【科普】强化学习之多臂老虎机问题(bandit算法:softmax,random,UCB)
本博客上的文章分为两类:一类是科普性文章,以通俗易懂的语言风格介绍专业性的概念及其应用场景(公式极少或没有),适合入门阶段。另一类是专业性文章,在科普阶段上做出详细的专业性数学推导,深刻理解其概念的内涵,适合进阶。本篇目录什么是强化学习?什么是K-摇臂赌博机问题?什么是EE困境?常见的解决EE困境办法的方法以及它们之间的差异?1、 什么是强化学习?近几年来,人工智能与大数据的概念...原创 2018-12-08 20:32:28 · 9882 阅读 · 3 评论 -
在线学习算法一些感悟与理解
最近在学习关于解决bandits问题的一些算法,熟悉的人都明白,MAB问题主要是寻找一个平衡点,也就是说,找一个trade-off 点。目前经典的算法有贪婪算法,UCB1,UCB2,以及context-based UCB等。它们都有一个共同点,它们是基于在线学习(learning algorithm)的解决思路。对于在线学习,我也搜索了一些资料,下面我结合资料谈谈看法,由于资料是当时摘抄的,我也忘...原创 2018-12-14 17:22:06 · 3082 阅读 · 0 评论