菜菜帆-CSDN博客

转载线性回归模型使用pytorch的简洁实现

采用pytorch能够更快的完成模型的设计和实现生成数据集读取数据集定义模型初始化模型参数定义损失函数定义优化函数训练

2020-02-14 17:32:27 328

转载 numpy & pandas

这两个模块用于数据分析，计算速度快，远快于字典和列表，numpy基于C语言编写，且pandas是numpy的升级版本。

2019-02-18 10:27:55 149

原创为什么基于策略估计的方法性能优于基于行为值函数估计的方法？例如DPG优于DQN?

原因有两个：1.如果最终策略是确定性策略，则基于策略估计的方法采用的softmax可以逼近找到最优解，即会出现pi（a|s）=1或0的情况；而基于行为值函数的估计的方法由于需指定ewuxilong-greedy策略中的ewuxilong参数，不能取得确定性策略，因为ewuxilong完全等于0意味着没有探索，其性能不会太好。2.如果最优策略是随机策略，则基于策略估计的方法采用的softmax可...

2018-12-13 21:14:18 805

Reinforcement Learning from Simultaneous Human and MDP Reward个人理解

1.介绍TAMER+RL的含义：TAMER+RL用于改善传统的RL算法，它是一种能从MDP 和人类反馈中学习的方法。当下论文的不足：以前的TAMER+RL只能测试一个单个的域，且从人的反馈中学习必须先于RL，就是我们所说的顺序TAMER+RL。改善方法：测试：前一个TAMER+RL任务和新的任务。检查：提供一种多需求的检查方式，检查在一定参数值的技术表现。引入一种心得算法：基于之前的...

2018-11-29 21:41:20 377

翻译普华永道区块链白皮书：区块链让城市更加智能普华永道中文精简版

1.介绍1.1什么是区块链？区块链是一种数字化、分布式分类账，可记录在对等网络中发生的所有交易。他是一个相互关联并不断扩展的记录列表，因为网络没有单点漏洞，所以能安全的存储在相互互联的系统中。此外，每个‘块’通过数字签名唯一的连接到前面的块，这意味着在不干扰链中地先前记录地情况下对记录进行改变是不可能的。从而使信息防篡改。区块链关键技术的创新在于，它允许参与者通过互联网进行传输，而无需集中的第...

2018-11-22 16:57:07 6256

原创 Pycharm新手使用教程

#寻找模板：file-settings-file and code templates-选模板#自定义风格：file-settings-colorscheme#调整字体大小：file-settings-editor-font-size#灰色波浪号pep8:python编码的规范#ctrl+f12搜索或ctrl+F#编码声明“utf-8”：告诉python解释器你用什么格式去解释pytho...

2018-11-17 16:24:02 483

m0_37815170的博客

转载线性回归模型使用pytorch的简洁实现

转载 numpy & pandas

原创为什么基于策略估计的方法性能优于基于行为值函数估计的方法？例如DPG优于DQN?

Reinforcement Learning from Simultaneous Human and MDP Reward个人理解

翻译普华永道区块链白皮书：区块链让城市更加智能普华永道中文精简版

原创 Pycharm新手使用教程

空空如也

空空如也

转载 线性回归模型使用pytorch的简洁实现

转载 numpy & pandas

原创 为什么基于策略估计的方法性能优于基于行为值函数估计的方法？例如DPG优于DQN?

Reinforcement Learning from Simultaneous Human and MDP Reward个人理解

翻译 普华永道区块链白皮书：区块链让城市更加智能 普华永道 中文精简版

原创 Pycharm新手使用教程

空空如也

空空如也

转载线性回归模型使用pytorch的简洁实现

原创为什么基于策略估计的方法性能优于基于行为值函数估计的方法？例如DPG优于DQN?

翻译普华永道区块链白皮书：区块链让城市更加智能普华永道中文精简版