自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 AI203(六):将经典Bandit算法转化为结构化Bandit场景的统一方法(A Unified Approach to Translate Classic Bandit Algorithms)

期望遗憾: ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​。关于奖励的均值依旧是一个未知量,随着时间的推移,目标将变成将这些奖励均值学习成一个上下文的函数,然后对每个上下文向量选择最大的。这里的算法是比经典场景(UCB,TS,KL-UCB,etc)更深入的MAB算法。已知,在每一轮,我们收到关于每一个行动的奖励的。这样就可以判定臂3不是竞争臂,从而关注臂1,2。

2024-12-26 20:12:13 710

原创 CS000:面向对象编程语言(C++)

最早的面向对象语言是Simula76,而被大家所熟知的面向对象语言有JavaC#Python等,还有Ruby,人工智能语言LISP,前端三剑客之一的JS,和脚本控制语言Lua,以及我们这次介绍面向对象语言使用的C++语言。

2024-12-25 22:04:45 753

原创 AI203:(五):渐进最优上置信界算法,贝叶斯学习和汤普森采样(Asymplotically Optimal UCB,Beyesian Learning and Thompson Sampling)

利用顺序贝叶斯学习的内容,我们引入汤普森采样,主要思想是,从一个先验分布出发(比如每个臂的奖励均值),基于现有的奖励均值分布做出决策并获取新的数据,然后更新分布,得到新的后验分布。由图可知,在不同的环境下策略2始终不是最优的,而策略1,3,4在特定环境下是最优策略,所以策略1,3,4是允许的(帕累托最优)贝叶斯学习的主要思想是环境的不确定性是被先验概率分布表现的(映射我们对环境的信念),我们只要选择可以最小化期望遗憾的策略。由渐进最优UCB的步骤可以看出,这个算法的探索红利是。

2024-12-24 21:23:21 854

原创 AI203:多臂强盗算法(四):上置信界算法(Upper Confidence Bound Algorithm)

ETC算法探索了每一只臂m次,然后在未来的所有轮次里再利用找到的拥有最大平均奖励的臂的意思是当足够大时,的增长速率与其渐进相等,意味的并不是数值相等,而是增长速率相等。实际情况选择,由此可见,选探索的次数依赖于总轮数时间步长,通常是已知的)和次优间隙,通常是未知的)

2024-12-24 13:59:48 651

原创 AI203:多臂强盗算法(三):探索再利用(Explore-Then-Commit Algorithm)

在接下来的多臂强盗算法笔记里,所有的arm的奖励分布均为。轮,算法将选择有最大平均奖励的臂来在未来的轮次里进行利用。探索阶段:在k个臂都被选了m次之前,选择每一个臂。,找到探索阶段里奖励最大的臂,然后一直拉它。是期望为0,方差为1的高斯分布的拖尾。是有界的,那么可以自然的得到次高斯分布。,ETC使用每个固定的arm一定的次数。的值是随便取的,遗憾界应该长什么样呢?一样的想法,ETC算法有两个阶段。当奖励分布是1-次高斯分布时。如果现在有两个以上的臂,而且。所以ETC算法的遗憾是。很大的时候,可近似让。

2024-12-23 21:07:15 768

原创 AI203:多臂强盗算法(二):随机平稳老虎机(1)(Stochastic Stationary Bandit,part 1)

因为reward是一个随机变量,所以Sn也是,需要设计一个检验Sn的分布多好的效用函数,大部分文献都用的是Sn的期望,去找谁的期望是最高的。相关老虎机(Correlated Bandit):不同action的奖励分布是相关的。learner的目标是在没有任何对reward分布已知的先验知识最大化累积的奖励Sn。这样,目标就变成了最小化action的加权和,而权重等于次优化的差值。大多情况下,对数遗憾几乎是所有算法能达到的最好情况。也就是说,当每轮的算法做出的次优决策以。:包含的所有可能分布的集合。

2024-12-15 20:31:05 518 1

原创 AI203:多臂强盗算法(一)简介 Multi-armed Bandit Algorithm : Intro

多臂老虎机是一个在n轮里learner和environment交互的顺序游戏。learner每一次拉动k个臂的老虎机的臂被称作一个action,而每轮action∈At,活动的集合。每一次action会得到未知分布的reward ,reward ∈ Xt,奖励的集合。

2024-12-13 01:49:22 541

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除