- 博客(5)
- 资源 (1)
- 收藏
- 关注
转载 CSDN如何转载
转自https://blog.csdn.net/bolu1234/article/details/51867099不知道为什么复制过来前言前面有好多空行啊 ...
2019-06-24 17:51:54 75
转载 强化学习入门 第三讲 蒙特卡罗方法
转载自 知乎专栏 天津包子馅儿的知乎上一节课我们讲了已知模型时,利用动态规划的方法求解马尔科夫决策问题。从这节课开始,我们讲无模型的强化学习算法。图3.1 强化学习方法分类解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示,无模型的强化学习算法主要包括蒙特...
2019-06-24 17:37:34 237
原创 强化学习入门第一讲笔记
原来的值函数就是一个表格型函数,现在状态空间是高维的,不能再用表格表示,用一个函数来逼近值函数,比如用线性、或者非线性,当函数的类型确定了之后,确定这个逼近函数的过层 其实就是确定参数的过程,对于三种表格型值函数更新方法都是统一格式(目标值函数-当前值函数)*学习率=更新后的值函数立即回报是状态做了动作之后得到的值? 比如s1状态做退出的动作,回报是0,那决策π其实是当前状态执行这个动...
2019-06-24 10:37:15 251
原创 用小数据集训练分类器
仍旧是照着书敲程序出现超多问题的一天 还好慢慢都解决了用小数据集训练猫狗分类器1.首先是在kaggle上面下载数据集 链接就不放了,书里都有的,下载过程会遇到麻烦就是手机收不到验证码,后来解决办法是在手机号前面加上860就可以完美解决,验证码好像还是从浙江发过来的感觉蛮神奇。2.下载之后的路径和书里的路径什么的不太一样要自己改一改,不要书里写的什么就无脑的照着敲上去,额,也可能只有我这么干...
2019-06-20 16:36:19 1454
原创 Ubuntu16.04快捷截图
今天发生了一个比较神奇的事情,本来是想看Ubuntu16.04截图快捷键网上查的是Ctrl+alt+printscreen ,但是我的键盘上printscreen写在f12上,于是用ctrl+alt+f12截图,结果突然黑屏,然后出现不停闪烁的光标,查了一下发现Ctrl+alt+f12是相当于进入了终端…用Ctrl+alt+f7退出就可以回到图形界面 , 智商不够啊…之前竟然直接重启了…那...
2019-06-19 17:19:15 144
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人