自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 核函数

顶顶顶顶

2020-02-12 11:38:55 216

原创 KKT条件和拉格朗日对偶

KKT条件是拉格朗日乘子法的泛化,利用KKT条件,既可以求解等式约束为题也可以求解不等式约束问题,而拉格朗日乘子法,只能处理等式约束问题,直接上KKT条件; 主要参考陈宝林《最优化理论与算法》,理个脉络出来。证明见原书。为了后面的svm说明,这里不上等式约束,个别符号也有变化。 (1) 要解决的问题: (2) Fritz John条件 若在处可微,在处连续,则 如果是问题(1)...

2020-02-03 09:35:54 697

原创 常用等式和不等式

1,三角不等式 2, 3,伯努利不等式 其中 是符号相同且大于-1的数

2019-11-17 20:12:30 218

原创 吉米多维奇刷题

第一章 分析引论 数学归纳法:为了证明某定理对任意的正整数n为真,只需要证明(1)对n=1为真(2)假设对n=k定理成立,则对n=k+1也成立。 1-10题思路是用数学归纳法证明一些等式和不等式: 1, 2, 3, 4, 6,伯努利不等式 其中 是符号相同且大于-1的数 7,若x > -1,则 8, 接下来就到了分割,分割的含义是:在...

2019-11-17 17:59:19 427

原创 线性SVM和软间隔SVM

参考: 1, 西瓜书 2,https://www.cnblogs.com/massquantity/p/10920043.html 1,给定训练样本集D = {(, ), (, ), ... (, )},{-1, +1}, i = 1, 2, ..., m 现在要找一个超平面,使得对于任意的(, )D,有: 2,支持向量 使得等式或者成立的向量(一个样本)称...

2019-10-05 15:02:41 311

原创 David Silver强化学习笔记4

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。写博客 开始MC方法。 前面对策略估计和改进都是在模型(转移概率 + 奖励)已知的情况下进行的。如果模型未知(model-free),怎么估计和改进策略呢? 从前面章节看,策略估计和改进的大致分两步:计算状态值和动作-状态值估计策略,然后在此基础上用贪婪算法改进策略; 先看看MC方法如何计算值函...

2019-03-14 17:51:39 515 1

原创 重要性采样

from scipy import stats from scipy.stats import norm import numpy as np import matplotlib.pyplot as plt def f(x): return np.sin(x) * x; def intf(x1, x2): return (np.sin(x2)- x2 * np.cos(x2)...

2019-02-27 18:19:37 558

原创 David Silver强化学习笔记3

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。 1,什么是动态规划? 跳过,不写。   2,迭代策略估计 任务:估计给定策略的状态值函数 方法1:迭代算法(iterative application of Bellman expectation backup,咋翻译?),              使用synchronous back...

2019-02-17 11:33:07 418 2

原创 强化学习笔记2

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。 接下来是MDP。 1,状态是Markov的 状态是Markov的当且仅当P[| ] =P[| ,..., ],也就是t+1时刻的状态仅和t时刻的状态有关; 2,状态转移矩阵P 若共有n个状态,则有状态转移矩阵: 其中, 当然,矩阵每一行,每一列的之和为1。 3...

2019-02-10 23:01:25 228

原创 强化学习笔记1

本文是看David Silver的强化学习视频的时候记的笔记,整理了视频的思路,补充了一些证明。 先是几个概念: 1,Agent 和Environment 在t时刻, Agent执行,接收和奖赏 Environment接收动作,释放和 2,History和State History是一个序列,而State是History的函数: 3, Reward和Return...

2019-02-10 22:02:06 205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除