深度学习
朱家小旺
这个作者很懒,什么都没留下…
展开
-
Transformer注意力机制笔记
最近一个模型需要用到注意力机制,但是对它的工作原理不是很了解,通过查找资料将觉得有用的记录下来以便后面遗忘后复习(内容来源于网络,我只是个搬运工)一、Transformer架构原文地址:Transformer模型深度解读机器翻译是从RNN开始跨入神经网络机器翻译时代的,几个比较重要的阶段分别是: Simple RNN, Contextualize RNN, Contextualized RNN with attention, Transformer(2017)因为要理解程序,所以重点记录Atten原创 2020-11-24 12:21:57 · 2541 阅读 · 1 评论 -
强化学习笔记
马尔可夫奖励过程的价值函数定义:MRP的贝尔曼方程:马尔可夫决策过程MDP策略:是在给定的状态下执行的动作的分布,它完全定义了agent的行为。MDP的状态-价值函数是开始在状态S,执行策略Π的期望回报:MDP的动作-价值函数是开始在状态S,采取动作a,然后执行策略Π的期望回报:贝尔曼方程: 状态-价值函数分解为当前的即时奖励+下一个状态的折扣奖励(动作-价值函数类似):强化学习Agent学习的两种方案:一:基于价值(value-based) 确定性策略,Sarsa、Q-原创 2020-11-08 22:52:46 · 186 阅读 · 0 评论 -
Tensorflow 入门
1.创建图、启动图import tensorflow as tfm1 = tf.constant([[3,3]]) #创建一个敞亮opm2 = tf.constant([[2],[3]])product = tf.matmul(m1,m2) #创建一个乘法矩阵op,把m1,m2传入print(product)#定义一个绘画默认启动图sess = tf.Session()#调用sess的result方法来执行矩阵乘法op#run(product)触发了图示中的3个opresult =原创 2020-06-20 16:52:40 · 100 阅读 · 0 评论