自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Transformer 架构零基础理解

掩码矩阵通过屏蔽未来位置,确保模型在预测当前位置时只能利用当前及之前的位置信息。这种机制在序列生成任务中至关重要,确保了模型的因果性。掩码矩阵与未归一化的注意力权重矩阵相加,使得未来位置的权重在softmax归一化后接近于0,从而有效地实现时间步的控制。IMPORTANT]关于词向量的思考:单纯的词向量训练(如Word2Vec、GloVe)能够在一定程度上捕捉语义和上下文信息,但在表达复杂的语言特性如文化背景、隐喻和情感等方面有其局限性。

2024-06-17 15:32:37 1007

原创 QT安装链接

码一个链接,5.15之后不提供独立安装包。

2024-03-22 14:48:57 74

原创 (2)并行计算架构基础

同步多线程技术,在一个时钟周期内可以执行来自多个线程的指令的硬件多线程技术,主要是指Intel的Hyper-Threading技术,允许单个处理器核心同时执行两个或更多的线程,多个线程可以共享同一个core的资源。流水线是指将复杂的指令执行过程拆分为多个简单/快速的阶段,每个阶段用相同的时间进行执行(通常每个阶段一个周期),在同一时间可以执行不同指令的不同阶段,从上述的五级乘法流水线可以清楚看出来(这里的五级流水线不是我们通常意义上的取指、译码…同样地减少了时间维度的浪费,但并没有减少空间维度的浪费。

2024-03-04 13:46:55 860

原创 求两数相除的循环节

a,b= [int(i) for i in input().split()]e=str(a/b)c=a%bli=[]while True: c=c*10%b d=int(c*10/b) li.append(d) if str(d)==e[2]: print(li[0:li.index(d)+1]) break有时间扩展下...

2020-03-12 18:19:48 607

原创 一些python简单编程题

eg_1.编写一个程序,根据给定的公式计算并打印值:。以下是C和H的固定值:C是50。H是30。D是一个变量,它的值应该以逗号分隔的序列输入到程序中。例子假设程序的输入序列是逗号分隔的:100,150,180,程序输出为:18,22,24提示:如果接收到的输出是小数,则应四舍五入到其最近的值(例如,如果接收到的输出是26.0,则应打印为26)。在为问题提供输入数据的情况下,应该假设它是控...

2020-03-12 17:15:28 3521

原创 python编程题_质数对数

题目:给定一个正整数,编写程序计算有多少对质数的和等于输入的这个正整数,并输出结果。输 入值小于1000。 如,输入为10,程序应该输出结果为2。(共有两对质数的和为10,分别 为(5,5),(3,7))输入描述: 输入包括一个整数n,(3 ≤ n < 1000)输出描述: 输出对数示例1 :输入:10输出: 2eg_1:# 判断是否质数def judge(n):...

2020-03-11 12:23:19 599

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除