- 博客(8)
- 收藏
- 关注
原创 多维Tensor作为张量索引
注:row_idx和col_idx的维度务必相同,例如row_idx.size()=(256,1,1),col_idx.size()=(256,58,64),不然无法映射。可以看出代码将原第3行的第2,3,4列,第二行的第1,3,2列以及第1行的第0,1,3列所对应的0修改为1,此时已经意思已经很明显了,即。可见mask通过上述索引,维度从(4,5)变为了(3,3,2),即通过索引张量row_idx和col_idx张量对应维度映射,
2023-09-20 10:52:11
86
1
原创 深度学习—self attention
这样便可以将self attention的作用看的比较清楚,只是如果这样的话,其结果就完全取决于embedding的结果,因此在这个基础上,可加上Wq,Wk,Wv(需要训练的三个矩阵),这样才能通过训练得到想要结果,而不是只依赖embedding。如果感觉有些难以理解的话,可先不用考虑Wq,Wk,Wv三个矩阵,即只是用a1分别于a1、a2、a3、a4作内积,并归一化后(归一化后得到a1、a2、a3、a4之间的相关度)再分别与a1、a2、a3、a4相乘再相加,得到b1。而向量间的夹角小于90°,则内积为正。
2023-07-28 20:15:20
79
1
原创 强化学习-贝尔曼最优公式
定义:如 policy 在任意 state 对应的 state value 都大于等于其他 policy,该 policy 为最优 policy。
2023-07-27 22:34:22
63
1
原创 强化学习-Bellman Equation
bootstrapping:从当前状态出发得到的return依赖于其他状态出发得到的return。但是怎么通过v2求解v1呢?可通过如下方式求解:通过上式简单计算便可得到v向量。考虑下面是一个多步骤的trajectory:那discounted return为:定义 state-value 为 Gt 的期望值,即多条 trajectory 的 return 的期望:其中 state value 是 state 的函数,代表着policy策略。
2023-07-27 16:05:48
69
1
原创 强化学习-基本概念
trajectory:state-action-reward链,遇到终点后的trajectory也可以叫episode。reward:agent在设计时会朝着reward期望最多的方向前进,其主要依赖当前的state和action。discounted return:在return中各项reward前×对应次方的gamma。policy:告诉agent在对应state下执行哪种action。return:trajectory中所有的reward求和。action:基于state可采取的行动。
2023-07-26 14:17:42
43
1
原创 python——类的继承汇总
1、super(子类名,self).__init__(继承变量名1,继承变量名2)2、父类名.__init__(self,继承变量名1,继承变量名2)
2023-05-12 21:33:30
36
1
原创 深度学习小白篇——显卡,显卡驱动,cuda的理解
CUDA:现目前的显卡计算能力已经远超CPU,不满足于其只是单纯的用作图像处理,但直接操 作GPU又过于复杂,因此英伟达推出用于自家GPU的并行计算框架(可理解为驱动的延 伸),在 CUDA 的架构下,一个程序分为两个部份:host 端和 device 端。Host 端是指 在 CPU 上执行的部份,而 device 端则是在显示芯片上执行的部份。
2023-05-10 10:00:43
804
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人