lueluewaaa-CSDN博客

转载强化学习专栏

简单易懂，结合实战的强化学习专栏，推荐！https://www.cnblogs.com/pinard/category/1254674.html但是实战还是强推莫烦的强化学习课程，通俗易懂好上手！https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/...

2019-08-18 10:57:01 153

转载常见的最优化方式

原文讲解很棒，推荐！https://www.cnblogs.com/shixiangwan/p/7532830.html

2019-08-18 10:52:17 106

转载对称加密和非对称加密

https://www.jianshu.com/p/b078282653b3https://blog.csdn.net/wenxingchen/article/details/81319905

2019-08-11 22:00:38 98

原创沈华伟老师强化学习课程笔记总结

强化学习：学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价为最佳。强化学习是一种计算方法，若只有从交互中学习的想法只能称为强化学习思想，而并不能称之为强化学习。监督学习是从标注中学习，侧重于泛化性能，区别于监督学习，强化学习是从交互中学习。监督学习：标注数据，用户给的反馈->预测函数无监督学习：无标签，无反...

2019-07-27 13:31:28 305

原创李宏毅教授调参课程笔记总结

Hyperparameters Tuning效果好的几组参数可能效果差别不大Model-based Hyperparameter Optimization根据采样数据构建一个回归模型寻找一个置信度大且准确率高的点，但同时需要进行一定程度的探索很大程度决定于回归模型的好坏可以将回归模型改为RNN，输出即为CNN的架构，再用CNN的accuracy作为回...

2019-07-27 13:20:12 139

原创李宏毅教授强化学习sparse reward课程笔记总结

Sparse Reward在实际生活中，reward通常都非常稀疏，只对某一特定行为有reward，而其余的exploration均为0，因此agent往往难以训练Reward Shaping(参考莫烦)区别于真实环境中的reward，设计一些reward来引导agent引入curiosity最原始的形式：估计和实际的相差越大则reward越大(Network1...

2019-07-27 10:15:44 517

原创李宏毅教授Policy Gradient课程笔记总结

Policy gradient：求解梯度trick：∇fx=f(x)∇logf(x)Tip1：将回报值的期望作为基线，使得每次计算的回报有正负区别Tip2：不将整场游戏得到的reward作为权重，为每个动作分配应有的权重，权重即为从当前时间t开始所有reward的累加改进：增加折扣On-policy：所学习的agent和用于环境交互的agent是同一个...

2019-07-26 11:14:40 523

原创李宏毅教授Imitation Learning课程笔记总结

Imitation Learning又称demonstration/apprenticeship learning用于解决没有reward的情况下的学习情况多数情况下agent可以和环境进行互动，但无法从环境中得到明确的reward，或者无法决定如何确定rewardBehavior cloning和监督学习类似，通过直接学习一个使得si映射到ai的神经网络来实现...

2019-07-25 20:58:19 260

原创李宏毅教授GAN课程笔记总结

GAN参考文献：受限玻尔兹曼机也是生成模型自编码机：所学得的NN Decoder可以将一个任意生成的向量生成为一张图片VAE(Variational Auto-Encoder)变分自编码器：为了不使σ 为0，因此加入限制：目的是为了使得m越接近0越好，相当于L2的正则化，而前一项也越接近0越好缺点：没有真正去模拟一张图片，无法达到和...

2019-07-25 20:51:34 765

原创李宏毅教授Capsule课程笔记总结

Capsule取代neuronneuron输出一个值，capsule输出一个向量neuron只能检测某一特定的模式，capsule可以检测一类模式其中向量v的每一维代表模式的一个特性Squash相当于进行挤压，只会改变长度而不会改变方向c1 和c2 不是学出来的，而是由测试阶段决定的有点像排除离群点训练的时候还是需要后向传播NN是用...

2019-07-25 20:47:39 428 1

原创李宏毅教授Batch Normalization课程笔记总结

Batch NormalizationFeature Scaling/Feature Normalization/Feature Standardization如果斜率差别大，那么不同方向上需要不同的learning rate，经过feature normalization后，error surface接近正圆形，使得训练更容易计算过程：在神经网...

2019-07-25 20:41:58 497

原创李宏毅教授神经网络基础架构课程笔记总结

Basic Structure预备知识：神经网络相当于由简单函数(neurons)组成的函数集Fully Connected LayerRecurrent Structure反复利用同一个结构相较于前馈网络，前馈网络的参数更多，会容易过拟合深层RNN双向RNNPyramidal RNN可以把seque...

2019-07-25 20:40:29 140

原创李宏毅教授Attention课程笔记总结

Generation可以用RNN生成文本、图片(grid lstm)、视频、手写字、语音*grid lstmConditional generation：不是随机产生，而是有情境地产生应用：image caption/machine translation/chat-botEncoder和Decoder的参数可以一样或者不一样，当参数一样时，参数比较少，比较不容...

2019-07-25 20:39:11 1478 1

原创李宏毅教授A3C课程笔记总结

A3C (Asynchronous Advantage Actor-Critic)远优于DQNAlpha go用到了model-based的方法On-policy：学习的agent和与环境互动的agent是同一个Off-policy：学习的agent和与环境互动的agent是不同的注意学习的agent和交互的agent之间的差别不能太大Actor：是一...

2019-07-25 20:36:57 634

原创 David Sliver强化学习课程第六讲笔记总结

扩充数据集用强化学习来解决实际问题用建立函数逼近器的方法来估算一个函数值，并将其应用于所有的状态数据库中：其中w为参数，w越小越能表示更多的情况，并使用MC或TD进行更新这里我们使用可微逼近函数，可以通过梯度对其进行提升用增量法形成梯度下降来达到增值函数逼近的效果：每走一步，检验一下自己的误差，预期一下自己的预估价值范围，数据库告诉你本应该所处的范围，迅速地对自...

2019-07-25 20:34:43 183

原创 David Sliver强化学习课程第四讲笔记总结

无模型预测：在没有MDP过程的情况下求解，没有环境先验，直接从agent和环境的交互中学习，估计值函数并得到策略蒙特卡洛学习：信息在到达轨迹的终点以后，仅根据所观察的样本来评估其价值。差分学习：对前一步进行反馈评估蒙特卡洛学习：可能不是最高效的，但是是最有效的方法，广泛应用于实践中使用经验均值反馈来替代预期反馈First-Visit：第一次访问时计数，依据大数定理不...

2019-07-25 20:33:23 136

原创 David Sliver强化学习课程第三讲笔记总结

DS-3如何解决形式化后的MDP动态：对于问题来说是序列的或时序的规划：策略动态规划：将复杂问题分解为子问题，将子问题的答案进行结合得到原问题的解适用于：①最优化结构：原问题可以分解为两个及以上的子问题，并通过对子问题的最优化求解来获得原问题的最优解——最短路径；②重叠子问题：子问题是不断重复的，子问题可以被多次重复使用MDP符合上述两个特征，另外贝尔曼方程是...

2019-07-25 20:30:26 98

weixin_42825220的博客