笔记
白水成泉
这个作者很懒,什么都没留下…
展开
-
强化学习第一天 基本概念
MDP:马尔可夫决策过程 Random Variable:随机变量 stochastic Process:随机过程 St t从1到无穷 Markov Progress:马尔可夫过程 具有马尔可夫性质的随机过程 state space Model:状态空间模型 马尔科夫链+状态观测对象 Markov Reward Process:马尔科夫链+奖励函数 MarKov Decision Process:马尔科夫链+奖励函数+Action S:state set A:Action set R:Reward set原创 2021-05-27 21:22:16 · 120 阅读 · 0 评论 -
B站学习笔记
张量(tensor) 0维张量/标量 标量是一个数字 1维张量/向量 1维张量称为“向量”。 2维张量 2维张量称为矩阵 3维张量 公用数据存储在张量 时间序列数据 股价 文本数据 彩色图片(RGB) 张量=容器 优化方法 梯度下降 挑选一个初始值W0,重复迭代更新W0 学习率:步长的超参数 沿梯度方向将增加损失函数值 学习率不能选太小(尽量少计算梯度),也不能选太大 在整个训练集上算梯度太贵,随机采样b个样本i1,i2,…,ib来近似损失 b是批量大小,另一个重要的超参数,批量大小不能太小也不能太大 梯原创 2021-05-17 17:12:15 · 145 阅读 · 0 评论