自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 核函数

顶顶顶顶

2020-02-12 11:38:55 216

原创 KKT条件和拉格朗日对偶

KKT条件是拉格朗日乘子法的泛化,利用KKT条件,既可以求解等式约束为题也可以求解不等式约束问题,而拉格朗日乘子法,只能处理等式约束问题,直接上KKT条件;主要参考陈宝林《最优化理论与算法》,理个脉络出来。证明见原书。为了后面的svm说明,这里不上等式约束,个别符号也有变化。(1) 要解决的问题:(2) Fritz John条件若在处可微,在处连续,则如果是问题(1)...

2020-02-03 09:35:54 702

原创 常用等式和不等式

1,三角不等式2,3,伯努利不等式其中是符号相同且大于-1的数

2019-11-17 20:12:30 219

原创 吉米多维奇刷题

第一章 分析引论数学归纳法:为了证明某定理对任意的正整数n为真,只需要证明(1)对n=1为真(2)假设对n=k定理成立,则对n=k+1也成立。1-10题思路是用数学归纳法证明一些等式和不等式:1,2,3,4,6,伯努利不等式其中是符号相同且大于-1的数7,若x > -1,则8,接下来就到了分割,分割的含义是:在...

2019-11-17 17:59:19 430

原创 线性SVM和软间隔SVM

参考:1, 西瓜书2,https://www.cnblogs.com/massquantity/p/10920043.html1,给定训练样本集D = {(, ), (, ), ... (, )},{-1, +1}, i = 1, 2, ..., m现在要找一个超平面,使得对于任意的(, )D,有:2,支持向量使得等式或者成立的向量(一个样本)称...

2019-10-05 15:02:41 311

原创 David Silver强化学习笔记4

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。写博客开始MC方法。前面对策略估计和改进都是在模型(转移概率 + 奖励)已知的情况下进行的。如果模型未知(model-free),怎么估计和改进策略呢?从前面章节看,策略估计和改进的大致分两步:计算状态值和动作-状态值估计策略,然后在此基础上用贪婪算法改进策略;先看看MC方法如何计算值函...

2019-03-14 17:51:39 521 1

原创 重要性采样

from scipy import statsfrom scipy.stats import normimport numpy as npimport matplotlib.pyplot as pltdef f(x): return np.sin(x) * x;def intf(x1, x2): return (np.sin(x2)- x2 * np.cos(x2)...

2019-02-27 18:19:37 559

原创 David Silver强化学习笔记3

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。1,什么是动态规划?跳过,不写。 2,迭代策略估计任务:估计给定策略的状态值函数方法1:迭代算法(iterative application of Bellman expectation backup,咋翻译?),             使用synchronous back...

2019-02-17 11:33:07 418 2

原创 强化学习笔记2

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。接下来是MDP。1,状态是Markov的状态是Markov的当且仅当P[| ] =P[| ,..., ],也就是t+1时刻的状态仅和t时刻的状态有关;2,状态转移矩阵P若共有n个状态,则有状态转移矩阵:其中,当然,矩阵每一行,每一列的之和为1。3...

2019-02-10 23:01:25 228

原创 强化学习笔记1

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。先是几个概念:1,Agent 和Environment在t时刻,Agent执行,接收和奖赏Environment接收动作,释放和2,History和StateHistory是一个序列,而State是History的函数:3, Reward和Return...

2019-02-10 22:02:06 206

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除