自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 线性回归模型使用pytorch的简洁实现

采用pytorch能够更快的完成模型的设计和实现生成数据集读取数据集定义模型初始化模型参数定义损失函数定义优化函数训练

2020-02-14 17:32:27 291

转载 numpy & pandas

这两个模块用于数据分析,计算速度快,远快于字典和列表,numpy基于C语言编写,且pandas是numpy的升级版本。

2019-02-18 10:27:55 112

原创 为什么基于策略估计的方法性能优于基于行为值函数估计的方法?例如DPG优于DQN?

原因有两个:1.如果最终策略是确定性策略,则基于策略估计的方法采用的softmax可以逼近找到最优解,即会出现pi(a|s)=1或0的情况;而基于行为值函数的估计的方法由于需指定ewuxilong-greedy策略中的ewuxilong参数,不能取得确定性策略,因为ewuxilong完全等于0意味着没有探索,其性能不会太好。2.如果最优策略是随机策略,则基于策略估计的方法采用的softmax可...

2018-12-13 21:14:18 765

Reinforcement Learning from Simultaneous Human and MDP Reward个人理解

1.介绍TAMER+RL的含义:TAMER+RL用于改善传统的RL算法,它是一种能从MDP 和人类反馈中学习的方法。当下论文的不足:以前的TAMER+RL只能测试一个单个的域,且从人的反馈中学习必须先于RL,就是我们所说的顺序TAMER+RL。改善方法:测试:前一个TAMER+RL任务和新的任务。检查:提供一种多需求的检查方式,检查在一定参数值的技术表现。引入一种心得算法:基于之前的...

2018-11-29 21:41:20 338

翻译 普华永道区块链白皮书:区块链让城市更加智能 普华永道 中文精简版

1.介绍1.1什么是区块链?区块链是一种数字化、分布式分类账,可记录在对等网络中发生的所有交易。他是一个相互关联并不断扩展的记录列表,因为网络没有单点漏洞,所以能安全的存储在相互互联的系统中。此外,每个‘块’通过数字签名唯一的连接到前面的块,这意味着在不干扰链中地先前记录地情况下对记录进行改变是不可能的。从而使信息防篡改。区块链关键技术的创新在于,它允许参与者通过互联网进行传输,而无需集中的第...

2018-11-22 16:57:07 6143

原创 Pycharm新手使用教程

#寻找模板:file-settings-file and code templates-选模板#自定义风格:file-settings-colorscheme#调整字体大小:file-settings-editor-font-size#灰色波浪号pep8:python编码的规范#ctrl+f12搜索或ctrl+F#编码声明“utf-8”:告诉python解释器你用什么格式去解释pytho...

2018-11-17 16:24:02 445

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除