自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 matlab画图格式

Matlab画图格式

2022-06-20 20:07:24 343 1

原创 matlab求解非线性约束优化问题

matlab 求解非线性约束优化问题

2022-06-20 19:57:39 2500

原创 Mac系统为TeXstudio配置LanguageTool语法检查(详细教程)

总体分为3步:1. 配置java环境。2. 下载languageTool包。3. 配置TeXstudio。

2022-06-16 20:58:39 1165 2

原创 From blockchain consensus back to Byzantine consensus

文章目录1. Pow model2. 一般化的共识问题——拜占庭共识3. 区块链共识算法3.1 有向无环图(DAG: Directed acyclic graph)3.2 分叉(Forks)3.3 主链选择(main branch selection)3.4 区块的决定和交易的确认(Decided blocks and committed transactions)4. Pow区块链的风险5. 区块链拜占庭共识6. 联盟链(blockchain model for consortiums)The nov

2020-09-15 01:57:05 450

原创 The Advertising Mix for a Search Good

目录背景结论背景一个潜在顾客看到一件感兴趣的商品,要么直接买,要么付出一定成本去寻找更多的信息。如果他决定购买,除了这个价格,还需要支付额外的成本(比如去商店,或者去相关网站)。结论低质量的企业应该提供更多信息。给定质量(是消费者访问成本的函数),首先要公开质量信息,然后将价格信息和横向产品信息添加到广告组合中。...

2020-05-13 03:04:50 184

原创 Bayesian Persuation

《Bayesian Persuation》,是经济学理论研究的一篇经典论文,2011年发表在AER上。-Motivation首先,看一个起诉人和法官博弈的案例。起诉人的目的是让理性的法官相信他是有罪的。法官有两个行动选择:定罪或无罪释放。对于被告来说,他的真实状态要么是有罪的,要么是无辜的。对于起诉人来说,如果被告被定罪,效用为1,否则为0。对于法官来说,判对了效用为1,判错为0。起诉人和法...

2020-05-05 17:08:26 1648 3

原创 Chapter 5: 蒙特卡罗方法

Chapter 5:蒙特卡罗方法5.1 Monte Carlo Prediction5.2 MC Estimation of Action Values5.3 MC ControlMonte Carlo ES method5.4 MC Control without Exploring Starts5.5 Off-policy Prediction via Importance Sampling...

2019-08-06 20:39:02 600

原创 Chapter 4:动态规划

Chapter 4:动态规划有限MDPs问题和老虎机问题一样,也是评价性反馈,但是和bandit问题不同的是,MDPs问题除了immediate reward还涉及到delayed reward,需要在直接奖励和延迟奖励之间权衡。在bandit问题中,估计的是每个动作aaa的value q∗(a)q_*(a)q∗​(a);在MDPs中,估计的是每个状态sss下的每个动作aaa的value q∗...

2019-08-05 11:42:20 125

原创 Chapter 3:有限Markov决策过程

Chapter 3:Finite Markov Decision Processes2.1 Agent–Environment交互Markov transition graph3.2 Goals and Rewards3.2.1 returns and episodes有限MDPs问题和老虎机问题一样,也是评价性反馈,但是和bandit问题不同的是,MDPs问题除了immediate rewar...

2019-07-30 21:44:24 277

原创 Chapter 2:Multi-armed bandits

Chapter 2:Multi-armed bandits2.1 Action-value Methods2.2 非平稳问题 Nonstationary Problem2.3 Optimistic Initial Values强化学习和其他的学习方法最重要的差别是:强化学习是评价性反馈(evaluative feedback),而不是指导性反馈(instructive feedback)。指导性...

2019-07-28 14:07:49 276

原创 Chapter 1:什么是强化学习?

Online Convex Optimization算法Chapter 1:什么是强化学习?1.1 RL的要素本文主要总结了《Introduction to Online Convex Optimization 》一书中提到的算法,Online Convex Optimization 可以和传统的Offline Convex Optimization对比进行分析。Chapter 1:什么是强化...

2019-07-26 14:13:01 339 3

转载 Jensen不等式

霍夫丁不等式的形式Jensen不等式对于凸函数f(x)f(x)f(x),有f(∑i=1Mλixi≤∑i=1Mλif(xi)f(\sum_{i=1}^M \lambda_i x_i \leq \sum_{i=1}^M \lambda_if(x_i)f(i=1∑M​λi​xi​≤i=1∑M​λi​f(xi​)(凹函数不等号方向相反)若把$$...

2019-07-23 17:50:05 268

转载 Hoeffding Inequality霍夫丁不等式

Hoeffding Inequality霍夫丁不等式霍夫丁不等式的形式霍夫丁不等式的证明霍夫丁不等式的形式霍夫丁定理1X1X_1X1​,X2X_2X2​,… ,XnX_nXn​ 为独立随机变量,且0≤Xi≤10\leq Xi \leq 10≤Xi≤1。定义这些变量的经验均值empirical risk为:Xˉ=X1+...+Xnn\bar X=\frac{X_1+...+X_n}{n}Xˉ...

2019-07-05 17:19:14 335

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除