自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

luchi007的专栏

12月 02月 01月

原创 Reinforcement Learning强化学习系列之四：时序差分TD

引言前面一篇讲的是蒙特卡洛的强化学习方法，蒙特卡罗强化学习算法通过考虑采样轨迹，克服了模型未知给策略估计造成的困难，不过蒙特卡罗方法有一个缺点，就是每次需要采样完一个轨迹之后才能更新策略。蒙特卡洛方法没有充分利用学习任务的MDP结构，而时序差分学习方法Temporal Difference（TD）就充分利用了MDP结构，效率比MC要高，这篇文章介绍一下TD算法Sarsa算法Sars...

2018-01-02 21:04:47 9211 7

基于LSTM的神经网络语言模型的实现

基于LSTM的神经网络语言模型，使用python实现以及Theano框架

2016-05-26

Struts2+Hibernate+Spring3.3.2环境配置

Struts2+Hibernate+Spring3.3.2环境配置，其中有所需要的所有jar文件，并且使用了相应的文件夹标注，方便配置user library

2015-02-13

中缀表达式转后缀表达式

用栈实现中缀表达式转为后缀表达式，规定了各个符号的优先级，可以说是对栈概念的深入理解

2013-04-22

二叉树的创建以及遍历

用递归的方法实现二叉树的创建以及遍历，同时在运用输入运算符重载后，简化了程序的可阅读性。

2013-04-22

用链表实现多项式的加法和乘法

用链表实现多项式的加法和乘法，用输入运算符重载的方法大大简化了链表的创建过程，乘法方面用了数组，主要是利用其线性的优点。

2013-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

luchi007

CSDN认证博客专家 CSDN认证企业博客

码龄11年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

110: 原创

2万+: 周排名

186万+: 总排名

57万+: 访问

: 等级

3972: 积分

468: 粉丝

232: 获赞

289: 评论

519: 收藏

私信

关注

热门文章

分类专栏

最新评论

pytorch入门
一枚小小白白: 五年了
模型纠偏之保序回归
WGS.: pctr：[0.1, 0.2, 0.3, 0.4, 0.5]，ctr：[0.3, 0.4, 0.2, 0.1, 0.6] + 第一轮，0.3 < 0.4，0.3不动；0.4 > 0.2，将0.4、0.2替换为均值得到：[0.3, 0.3, 0.3, 0.1, 0.6] + 第二轮，0.3 = 0.3备选，0.3 < 0.1，将0.3, 0.3, 0.3, 0.1替换为这4个的均值得到：[0.25, 0.25, 0.25, 0.25, 0.6] + 第三轮：0.25 < 0.6，结束
Reinforcement Learning强化学习系列之四：时序差分TD
XD_MaoHai: 我在讲多臂赌博机的文章中有提到：https://blog.csdn.net/qq_56937808/article/details/120473326?spm=1001.2014.3001.5501
深度学习之六，基于RNN(GRU,LSTM)的语言模型分析与theano代码实现
Nick Throne: 您好，大佬，请问GRU是动态模型还是静态模型？
理解和解决Python2中的编码问题
激动的兔子: 非常优秀的文章，值得推荐收藏

最新文章

提示

确定要删除当前文章？

取消删除