- 博客(6)
- 收藏
- 关注
原创 Transformer 架构零基础理解
掩码矩阵通过屏蔽未来位置,确保模型在预测当前位置时只能利用当前及之前的位置信息。这种机制在序列生成任务中至关重要,确保了模型的因果性。掩码矩阵与未归一化的注意力权重矩阵相加,使得未来位置的权重在softmax归一化后接近于0,从而有效地实现时间步的控制。IMPORTANT]关于词向量的思考:单纯的词向量训练(如Word2Vec、GloVe)能够在一定程度上捕捉语义和上下文信息,但在表达复杂的语言特性如文化背景、隐喻和情感等方面有其局限性。
2024-06-17 15:32:37
1007
原创 (2)并行计算架构基础
同步多线程技术,在一个时钟周期内可以执行来自多个线程的指令的硬件多线程技术,主要是指Intel的Hyper-Threading技术,允许单个处理器核心同时执行两个或更多的线程,多个线程可以共享同一个core的资源。流水线是指将复杂的指令执行过程拆分为多个简单/快速的阶段,每个阶段用相同的时间进行执行(通常每个阶段一个周期),在同一时间可以执行不同指令的不同阶段,从上述的五级乘法流水线可以清楚看出来(这里的五级流水线不是我们通常意义上的取指、译码…同样地减少了时间维度的浪费,但并没有减少空间维度的浪费。
2024-03-04 13:46:55
860
原创 求两数相除的循环节
a,b= [int(i) for i in input().split()]e=str(a/b)c=a%bli=[]while True: c=c*10%b d=int(c*10/b) li.append(d) if str(d)==e[2]: print(li[0:li.index(d)+1]) break有时间扩展下...
2020-03-12 18:19:48
607
原创 一些python简单编程题
eg_1.编写一个程序,根据给定的公式计算并打印值:。以下是C和H的固定值:C是50。H是30。D是一个变量,它的值应该以逗号分隔的序列输入到程序中。例子假设程序的输入序列是逗号分隔的:100,150,180,程序输出为:18,22,24提示:如果接收到的输出是小数,则应四舍五入到其最近的值(例如,如果接收到的输出是26.0,则应打印为26)。在为问题提供输入数据的情况下,应该假设它是控...
2020-03-12 17:15:28
3521
原创 python编程题_质数对数
题目:给定一个正整数,编写程序计算有多少对质数的和等于输入的这个正整数,并输出结果。输 入值小于1000。 如,输入为10,程序应该输出结果为2。(共有两对质数的和为10,分别 为(5,5),(3,7))输入描述: 输入包括一个整数n,(3 ≤ n < 1000)输出描述: 输出对数示例1 :输入:10输出: 2eg_1:# 判断是否质数def judge(n):...
2020-03-11 12:23:19
599
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人