自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Bing's Blog

用心若镜，不将不逆，应而不藏。

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创 Q-Learning算法学习

Q-Learning算法学习简介Q-Learning算法下，目标是达到目标状态(Goal State)并获取最高收益，一旦到达目标状态，最终收益保持不变。因此，目标状态又称之为吸收态。Q-Learning算法下的agent，不知道整体的环境，知道当前状态下可以选择哪些动作。通常，我们需要构建一个即时奖励矩阵R，用于表示从状态s到下一个状态s’的动作奖励值。由即时奖励矩阵R计算得出指导agent行动的

2017-07-28 11:54:25 24067 6

原创 Monto Carlo估计动作价值(action values)

Monto Carlo估计动作价值(action values)@(Machine Learning)名词翻译action 行动，动作action values 动作价值state values 状态价值policy 策略总体思路总体的指导思路是：在Model未知时，估计动作价值要比估计状态价值要有用一些。而当Model是已知的，仅仅利用状态价值就足够决定策略。Model未知时，只

2017-07-22 13:08:20 914

TensorFlow for Deep Learning: From Linear Regression to Reinforcement Learning

2018.3月出版，完整326页，非预印版，找了很久的资料，分享给大家。

2018-03-14

Hands-On Machine Learning with Scikit-Learn and TensorFlow -- 2017.3月第一版 + 对应代码

Hands-On Machine Learning with Scikit-Learn and TensorFlow 2017.3月第一版的英文书以及对应的代码，亲测良心资源。

2018-01-28

Practical Python and OpenCV + Case Study均为第三版两本书用Python3

Python-OpenCV教程以及Case Study，均为第三版，用Python3

2017-12-11

2009~2016真题--不含选择题解析

看不惯某些人拿别人的免费文档要很高的下载分。

2016-11-25

C++ Primer第五版翻译--队列适配器

2016-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DrCrypto

CSDN认证博客专家 CSDN认证企业博客

码龄11年

IP 属地：浙江省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

648: 原创

1万+: 周排名

124万+: 总排名

490万+: 访问

: 等级

3万+: 积分

2590: 粉丝

4656: 获赞

1036: 评论

8725: 收藏

私信

关注

热门文章

分类专栏

最新评论

思考PC的位数设计
weixin_63494731: 看半天王道答案不知所云，这下搞懂了
中断占据CPU时间的计算问题
争336: 每400ns发出一次中断请求的意思是两次中断请求间隔400ns，两次中断请求之间进行了中断请求的响应和处理，所以整个CPU时间是400ns而不是500ns
关于信道利用率的总结与一道习题的最终解释
mlpaladin2021: 我也觉得不需要加后面一个64。因为确认帧大小是忽略不计的，而且就算有长度，凭什么一个确认帧的发送时延就和一个数据帧的发送时延一样长？长度和速度都不确定
kA*与(kA)*的行列式计算
Ns.豪: 应该是左边同时乘以(kA)−1
死锁习题细究
2401_84023945: 若是考这种阅读理解，那么就算是死锁预防也不会限制用户申请资源的顺序，因为死锁预防只需要破坏四种必要条件中的一种，又不是非得采用顺寻资源分配法，所以说这种题出的就很没水平

最新文章

提示

确定要删除当前文章？

取消删除