自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 EM算法理解

根据江老师的课件理解:EM是要在包含complete data和missing data的情况下利用层次模型解决混合模型的问题。注意E和M分别都有两步:E1:对于all data, 计算参数λ,μ,σ\lambda, \mu, \sigmaλ,μ,σ的log likelihood的Expection。之所以叫Expection,是因为对于每个类别yi,我们算的都是E[yi=k]而不是用I[yi=k]。这其实是一步很关键的理解。我们对于missing data不用给他打标签,而只需要在E的第二步算出它的

2020-11-07 22:05:07 235

原创 动态规划问题理解

今天和杨哥、蒋、章师兄突然间讨论到了动态规划, 半天搞不出来,于是乎查了一些资料,理解如下:动态规划的三个性质最优子问题:A到C的最优解中的B到C的那一段也一定是B到C的最优解无后效性:A到B的问题和B到C的问题无耦合,可以分别单独求解重叠子问题:A到B和B到C的问题属于一类问题,可以用同一套公式写出下面看两类代表性的动态规划问题gridworld类型如上图,从左上角到右下角求一条权值和最短的路径(在一般的走迷宫问题中,全是权值为1即可)做法注意事项:首先推出:每一次一定是只能向下

2020-11-07 21:14:58 590

原创 SARSA和Q Learning的区别理解

saras是on-policy学习,q-learning是off-policy学习。sarsa的学习比较保守稳健,每一个episode和每个episode的每个step都会执行episilon-greedy探索;q-learning则倾向于利用经验的累积,学习到最优策略。在悬崖行走曲线上,q-learning方法是optimal的,但会有风险,sarsa方法是安全的,但学习的episode曲线也被拉长了。...

2020-09-26 10:14:25 835

原创 强化学习对于infinte horizon的方案

无非两种方案:完成这次交互,也就是超过这一次规定的迭代步数直到done,这样做会使每一次迭代更新时的交互step不同,比较不同算法在相同的step性能如何时略显不公平不完成这次交互,这样会使最后一步的step采用gae对adv估值存在近似。在John Schulman’s 程序中,对V估值采用这种方式: V(s_t+1) = {0 if s_t is terminal {v_s_{t+1} if s_t not terminal and t

2020-09-02 20:31:14 346

原创 Batch Normalization理解

啥叫所谓的后层网络要不断适应前面网络的变化?有x就行了呀,就算输入的分布变了,又能咋?为啥说学习速度就慢了ICS产生的原因是由于参数更新带来的网络中每一层输入值分布的改变,并且随着网络层数的加深而变得更加严重通过固定每一层网络输入值的分布来对减缓ICS问题...

2020-08-05 09:56:51 87

原创 学习记录

学习记录MARL中的credit assignment问题理解记录平时看到的学到的知识MARL中的credit assignment问题理解简单的入门理解:把握两点不知道每个智能体对总的回报的贡献agent可能会出现懒政,即别人ok了我不探索了...

2020-08-04 15:38:51 97

原创 学习记录

2020/7/22PPO里面之所以非要在forward的时候使用dist来sample,而不能像其他(如DDPG)一样直接出来tanh就是action,是因为我们最后要计算logP(a∣s)logP(a|s)logP(a∣s),而计算这个只能借用distribution的函数来计算,所以必须要有个distribution...

2020-07-22 12:00:37 53

原创 Meta Learning

Meta Learning这样理解:我们的目标是能够few shot learning也就是说,每一类看一两个样本就能够学会如何区分这些类,于是乎一个task就定义为:每一类看一两个样本,然后在新的样本(但是是刚才看过的类)上进行分类...

2020-07-21 11:28:21 90

原创 Leetcode刷题记录(一)

Leetcode刷题记录两数之和记录我的leetcode刷题过程。始于2020年7月21日。两数之和哈希表的理解:哈希表将输入(啥都能行,字符串、数字、对象等等)通过哈希算法(散列算法,是一种压缩映射,输出空间小于输入空间,所以有碰撞)映射成一个数字,记为k;计算存储该输入对象的地址:start + k * size,这仅需要O(1);对于一个查找输入,我们同样先把它哈希一下,得到对应的k′k'k′,然后计算start + k′k'k′ * size,有则有无则无,同样只需要O(1)。py

2020-07-21 10:29:30 321

原创 Maximizing likelihood is equivalent to minimizing KL-Divergence

Maximizing likelihood is equivalent to minimizing KL-Divergence如题,现证明如下:假设两个分布为p(x∣θ∗)p(x|\theta^*)p(x∣θ∗)和p(x∣θ)p(x|\theta)p(x∣θ),分别代表真实的数据分布和我们估计出来的数据分布,则:KL Divergence= DKL(p(x∣θ∗)∣∣p(x∣θ)))D_{KL}(p(x|\theta^*)||p(x|\theta)))DKL​(p(x∣θ∗)∣∣p(x∣θ)))

2020-07-05 09:58:35 236

原创 Double DQN with Prioritized Experience Reply

Double DQN with Prioritized Experience ReplyDouble DQN部分Prioritized Experience Reply部分其他compute_nstep_return()函数主要是学习了一下tianshou的源代码来增加一些水平。看看好的开源库总是不错的。记录一下学到的知识。Double DQN部分target net一直是eval的只需要将new net的更新从r+γQ′(s′,argmax(Q′(s′,a′)))r + \gamma Q^{

2020-07-04 23:12:08 115

原创 OpenAI gym 自定义环境注册方法

OpenAI gym 自定义环境注册方法方法写好myenv.py放置注册因为要自己搭一个机器人环境,要借鉴一下Fetch-PickAndPlace-v1的环境,在它的基础上改进,所以就用它来注册一个新的环境来改。方法写好myenv.py这里我直接复制粘贴一下pick_and_place.py,然后把类的名字改成MyEnv.py即可。放置放置可以有三种方式:将myenv.py放置到~/anaconda3/envs/torch/lib/python3.6/site-packages/gym/e

2020-06-30 17:39:15 3423 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除