opencv_2012-CSDN博客

原创核函数

顶顶顶顶

2020-02-12 11:38:55 224

原创 KKT条件和拉格朗日对偶

KKT条件是拉格朗日乘子法的泛化，利用KKT条件，既可以求解等式约束为题也可以求解不等式约束问题，而拉格朗日乘子法，只能处理等式约束问题，直接上KKT条件；主要参考陈宝林《最优化理论与算法》，理个脉络出来。证明见原书。为了后面的svm说明，这里不上等式约束，个别符号也有变化。(1) 要解决的问题：(2) Fritz John条件若在处可微，在处连续，则如果是问题(1)...

2020-02-03 09:35:54 739

原创常用等式和不等式

1，三角不等式2，3，伯努利不等式其中是符号相同且大于-1的数

2019-11-17 20:12:30 252

原创吉米多维奇刷题

第一章分析引论数学归纳法：为了证明某定理对任意的正整数n为真，只需要证明(1)对n=1为真(2)假设对n=k定理成立，则对n=k+1也成立。1-10题思路是用数学归纳法证明一些等式和不等式：1,2,3,4,6，伯努利不等式其中是符号相同且大于-1的数7，若x > -1，则8，接下来就到了分割，分割的含义是：在...

2019-11-17 17:59:19 477

原创线性SVM和软间隔SVM

参考：1，西瓜书2，https://www.cnblogs.com/massquantity/p/10920043.html1，给定训练样本集D = {(, ), (, ), ... (, )},{-1, +1}, i = 1, 2, ..., m现在要找一个超平面，使得对于任意的(, )D，有：2，支持向量使得等式或者成立的向量(一个样本)称...

2019-10-05 15:02:41 317

原创 David Silver强化学习笔记4

本文是看David Silver的强化学习视频的时候记的笔记，整理了视频的思路，补充了一些证明。写博客开始MC方法。前面对策略估计和改进都是在模型(转移概率 + 奖励)已知的情况下进行的。如果模型未知(model-free)，怎么估计和改进策略呢？从前面章节看，策略估计和改进的大致分两步：计算状态值和动作-状态值估计策略，然后在此基础上用贪婪算法改进策略；先看看MC方法如何计算值函...

2019-03-14 17:51:39 530 1

原创重要性采样

from scipy import statsfrom scipy.stats import normimport numpy as npimport matplotlib.pyplot as pltdef f(x): return np.sin(x) * x;def intf(x1, x2): return (np.sin(x2)- x2 * np.cos(x2)...

2019-02-27 18:19:37 593

原创 David Silver强化学习笔记3

本文是看David Silver的强化学习视频的时候记的笔记，整理了视频的思路，补充了一些证明。1,什么是动态规划？跳过，不写。 2，迭代策略估计任务：估计给定策略的状态值函数方法1：迭代算法(iterative application of Bellman expectation backup，咋翻译？)，使用synchronous back...

2019-02-17 11:33:07 484 2

原创强化学习笔记2

本文是看David Silver的强化学习视频的时候记的笔记，整理了视频的思路，补充了一些证明。接下来是MDP。1，状态是Markov的状态是Markov的当且仅当P[| ] =P[| ,..., ]，也就是t+1时刻的状态仅和t时刻的状态有关；2，状态转移矩阵P若共有n个状态，则有状态转移矩阵：其中，当然，矩阵每一行，每一列的之和为1。3...

2019-02-10 23:01:25 253

原创强化学习笔记1

本文是看David Silver的强化学习视频的时候记的笔记，整理了视频的思路，补充了一些证明。先是几个概念：1,Agent 和Environment在t时刻，Agent执行，接收和奖赏Environment接收动作，释放和2，History和StateHistory是一个序列，而State是History的函数：3, Reward和Return...

2019-02-10 22:02:06 231

opencv_2012的专栏