- 博客(8)
- 资源 (2)
- 收藏
- 关注
翻译 DeepReinforcementlearning:AnOverview paper总结
Deep Reinforcement Learning: An OverviewIntroduction高维的input-data in learning-control-policies in complex RL environment2,3节 deep RL内容,介绍三种常用的Deep learning结构4节 监督/无监督model in deep RLReinforcement...
2018-09-25 20:09:56 986
原创 CS231n-课程总结
来自斯坦福CS231n课程 李飞飞主讲 我主要是对Notes部分的小总结 包括图像基础,神经网络Backprop,卷积层做了基础的了解 还有参数的调整,解决过拟合的问题等等0_图像基础1.k-Nearest-Neighber: 最相似的前k个元素中 找到属于同一类别最多的label2.高维数据的PCA降维 再使用KNN3.参数K值 向量距离的L1(差值Sum) or L2(差值平方和)定...
2018-09-19 11:04:09 334
原创 CS231n-课程作业总结
来自斯坦福CS231n课程 李飞飞主讲 我主要是对Notes部分的小总结 包括图像基础,神经网络Backprop,卷积层做了基础的了解 还有参数的调整,解决过拟合的问题等等 ·0_图像基础 1.k-Nearest-Neighber: 最相似的前k个元素中 找到属于同一类别最多的label 2.高维数据的PCA降维 再使用KNN 3.参数K值 向量距离的L1(差值Sum) or...
2018-09-12 14:47:01 409
原创 RLAI-第十二章-EligibilityTrace实践
Sarsa(λ)实践 Model-Free先验知识 https://zhuanlan.zhihu.com/p/28108498 1.资格迹定义的来源公式 chapter12 2.定义 E0(s,a)=0 Et(s,a) = γ * λ * Et-1(s,a) + 1 其中(St=s,At=a) 3.引入资格迹的Q值更新公式: Q(s,a) = Q(s,a) + α * {Rt...
2018-09-05 17:02:40 280
原创 RLAI-第六章-TD-Sarsa(0)实践
TD思想中的Sarsa实现 https://zhuanlan.zhihu.com/p/28133594 Sarsa是on-policy的 action初始拥有自己的策略d 我们需要优化策略π 初始情况 1.终止点Reward=1,否则Reward=-1 2.Sarsa需要维护Q(s,a)即state-value函数。在状态S下采取动作A能获取对应value 目的 Ag...
2018-09-04 20:11:25 242
原创 RLAI-第三章-gridWorld实践
第三讲 方格世界 DP 初始情况 1.只有移动到指定位置,Reward=1.否则Reward=-1 2.States-space(4*4 终止的方格+非终止) 3.Action-space(n,e,s,w) 4.转移概率(1/4 感觉这就是相当于指定Action的策略) 5. 折扣因子γ=1 目的 给定某一策略(比如转移概率),计算每一个方格最终的状态价值 公式 ...
2018-09-04 20:09:52 2230
原创 RLAI读书笔记-第十三章-Policy Gradient Methods
policy gradient Methods Model Free的策略梯度 直接策略搜索 值函数:策略评估+策略改善 ==》值函数最优,策略就是最优的的 ==》value-based method 策略搜索: 对于策略π进行参数化表示 π(a|s,θ)==》policy-based method13.1 Policy Approximation https://zhuanlan...
2018-09-03 14:25:25 260
原创 RLAI读书笔记-第十二章-Eligibility Traces
12 Eligibility Traces 10章的近似函数扩展 Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223 1.α是步长 误差{Vπ(St) - V^(S,W)}变大 则α需要变小 2.Vπ(St) 即Gt通过本章的λ-return计算 3. ▽wV^(S,W) 通过资格迹来优化看第九章 资格迹==优化后的函数微分(...
2018-09-03 14:24:21 318
ELK日志解析初步认识
2016-10-21
PSO粒子群算法+VS2012
2016-10-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人