- 博客(8)
- 收藏
- 关注
原创 【强化学习】第三篇--蒙特卡洛方法
作者:王小草笔记时间:2019年1月22日1 蒙特卡罗法的起源蒙特卡罗法的名字来源于世界著名的赌城蒙特卡罗。是用随机数来解决计算问题,即以概率为基础的方法。套路是:生成随机样本–>试验多次–>总结经验利用蒙特卡罗法计算圆周率π:![image_1d1pjdu1i1vka17h8apn1hp41eu89.png-61.7kB][1]利用蒙特卡罗法测量不规则图形的面积:!...
2019-01-22 19:41:23 6283
原创 【强化学习】第二篇--基于模型的动态规划法
作者:王小草笔记时间:2019年1月21日1 价值函数的计算困难1.1 最优值函数的递归定义先来回忆一下最优状态值函数和最优状态-行为值函数。最优状态价值函数:考虑这个状态下,可能发生的所有后续动作,并且挑最好的动作来执行的情况下,这个状态的价值。最优状态-动作值函数:在这个状态下执行了一个特定的动作,并且该动作的后续状态总能选取最好的动作来执行,所得到的长期价值以...
2019-01-22 19:40:44 1760
原创 【强化学习】第一篇--马尔科夫决策过程
作者:王小草笔记时间:2019年1月20日1 马尔科夫性质与过程1.1 马尔科夫性质马尔科夫性质即:系统的下一状态只与当前状态有关,与以前的历史状态无关。公式表达:特点:当前状态蕴含所有相关历史信息一旦当前状态已知,历史信息将会被抛弃1.2 马尔科夫过程马尔科夫过程即:该过程中所有状态都满足马尔科夫性。表示:马尔科夫过程可以用一个二元组表示...
2019-01-22 19:39:41 3653
原创 GAN生成对抗网络入门篇
笔记整理:王小草时间:2019年1月一、GAN简介1 背景全称:generative adversarial network 生成式对抗网络(不一定是深度学习)论文:https://arxiv.org/abs/1406.2661提出者:Ian Goodfellow(也是深度学习花园书的作者)2 Gan能做什么?2.1 生成图片下图,第一张图是真实图片,第二张是使用MSE为损失的监...
2019-01-19 16:16:34 11757 10
原创 Pycharm远程连接GPU服务器
工欲善其事,必先利其器。很多童鞋都是在本地编写和调试代码,然后再将代码通过某种方式传到服务器上,用vim修修改改然后运行。先不说本地和服务器手工维护和同步两份代码劳心劳肺,若不是对vim编辑文件得心应手也自然会费时费力。因此,强烈推荐写python的同学用pycharm远程链接远程服务器,下面具体讲讲如何连接。首先,说明,想要pycharm链接远程服务器,必须是professional版本的p...
2019-01-17 13:01:54 13684 3
原创 文献分享 |【文本表征系列】句子分布式嵌入向量的动态总结
作者:王小草背景介绍最近对句子的分布式嵌入向量做了些许调研,前程往事自不必多提,未来之事也无需多虑,本文只聚焦于2015年-2018年最近4年最为典型的文献予以介绍和推荐,若读者在工作中有接触和应用更好的方法,跪求您给我留言建议哦,不胜感激。词嵌入或词表征,是用具有语义相似性的向量来表征自然语言中的词语。以此类推,句子嵌入或句子表征,就是用向量来表征自然语言中的句子,使得向量中携带着句子的语...
2019-01-07 16:41:18 2185
原创 跨语言词嵌入模型调研报告
作者:王小草 1. 跨语言词嵌入介绍__ 31.0前言__ 31.1 what? 31.2 why? 31.3 how? 31.3.1 how to achieve? 31.3.1 how to evaluate? 32. 跨语言词嵌入实现方法的分类方式说明__ 43. 跨语言词嵌入实现方法详细介绍__ 43.1 词对齐+并行数据__ 43.1....
2019-01-07 16:37:44 4341 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人