![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
白水成泉
这个作者很懒,什么都没留下…
展开
-
强化学习第一天 基本概念
MDP:马尔可夫决策过程Random Variable:随机变量stochastic Process:随机过程 St t从1到无穷Markov Progress:马尔可夫过程 具有马尔可夫性质的随机过程state space Model:状态空间模型 马尔科夫链+状态观测对象Markov Reward Process:马尔科夫链+奖励函数MarKov Decision Process:马尔科夫链+奖励函数+ActionS:state setA:Action setR:Reward set原创 2021-05-27 21:22:16 · 125 阅读 · 0 评论 -
B站学习笔记
张量(tensor)0维张量/标量 标量是一个数字1维张量/向量 1维张量称为“向量”。2维张量 2维张量称为矩阵3维张量 公用数据存储在张量 时间序列数据 股价 文本数据 彩色图片(RGB)张量=容器优化方法梯度下降挑选一个初始值W0,重复迭代更新W0学习率:步长的超参数沿梯度方向将增加损失函数值学习率不能选太小(尽量少计算梯度),也不能选太大在整个训练集上算梯度太贵,随机采样b个样本i1,i2,…,ib来近似损失b是批量大小,另一个重要的超参数,批量大小不能太小也不能太大梯原创 2021-05-17 17:12:15 · 154 阅读 · 0 评论