自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Transformer学习四

GPT-3的token限制大约在4096左右(据说GPT-4最多输入3.2万token),因此无法直接将12万token的文本输进去。首先,我们最好能保证每份文本本身的语义连贯性,如果从一个句子中间将上下文拆成两块,则翻译时容易存在歧义。我们可以将使用一个简单的方法,将文本分成若干份,每一份使用chatgpt翻译,最终再拼接起来。因此,我们选定一个阈值,如500,每次加入一个文本段落,如果总数超过500,则开启一个文本块。一个比较直观的想法是,将每个段落当成一个文本块,每次翻译一段。

2025-02-19 20:17:12 273

原创 Transformers

Prompt+生成的文本,所有的Token长度不能超过模型的上下文长度(一般是2048,新的是4096,具体可以参考上面的链接)。model:指定的模型,gpt-3.5-turbo就是其中一个模型,大家可以根据自己的需要,参考官方列表进行选择,一般需要综合价格和效果进行权衡。,把我们自己的数据集按指定格式准备好,提交给API,让它帮我们微调一个属于我们自己的模型,它在我们自己的数据集上学习过。准备数据:按接口要求的格式把数据准备好,这里的数据就是我们自己的数据集,至少包含一段文本和一个类别。

2025-02-11 21:58:35 562

原创 Transformer二

",我们先获取它的Embedding,然后逐个遍历vec_base计算相似度,并取最高的作为响应。通过Emedding,两个不同的词可以视作n维空间中两个不同方向的向量,两个向量夹角越小,方向越相似,词义就更像。召回:通过各种不同属性或特征(如用户偏好、热点、行为等)先找到一批要推荐列表。排序:根据多样性、时效性、用户反馈、热门程度等属性对结果进行排序。存储Embedding,同时存储每个Question对应的答案。从存储的地方检索最相似的Question。目标:找到与询问的问题最相似的问题。

2025-02-04 23:22:03 264

原创 transformer与大模型

四、RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习):是一种训练方法,在语言模型训练中,通过收集人类对模型生成结果的反馈,将其转化为奖励信号,利用强化学习算法来优化模型,使模型生成的内容更符合人类的偏好和需要。二、LM(Language Model,语言模型):是一种基于概率统计的数学模型,能够根据已有的语言数据,学习语言的模式、结构和规律,从而对新的语言序列进行预测和生成,比如预测下一个可能出现的单词等。

2025-01-24 21:02:31 849

原创 pytorch学习六

ResNet 在某种程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度。遗忘门是一个Sigmoid层,它的输入是前一个时间步的隐藏状态h_{t - 1}和当前时间步的输入x_t,输出是一个介于0和1之间的值。另一个是Tanh层,用于创建新的候选值。:将输入图像裁剪成不重叠的小块,如将224*224*3的图像切成4*4的patch,得到56*56个大小为4*4*3的小方块,再拉平得到56*56*48的特征图.

2024-12-13 00:17:29 666

原创 pytorch学习五

它提供了许多常用的数据集加载器,如 torchvision.datasets.MNIST 用于加载MNIST手写数字数据集, torchvision.datasets.CIFAR10 用于加载CIFAR - 10图像数据集。同时,还提供了数据预处理和数据增强的工具,像 torchvision.transforms 模块,可以进行图像的裁剪、翻转、归一化等操作。例如,将一个简单的神经网络模型转换为ONNX格式后,就可以在支持ONNX的其他推理引擎(如TensorRT等)上进行部署,提高模型的推理速度。

2024-12-05 23:20:25 816

原创 pytorch学习四

ModuleList 接收一个子模块(或层,需属于nn.Module类)的列表作为输入,然后也可以类似List那样进行append和extend操作。它可以接收一个子模块的有序字典(OrderedDict) 或者一系列子模块作为参数来逐一添加 Module 的实例,⽽模型的前向计算就是将这些实例按添加的顺序逐⼀计算。# self._modules返回一个 OrderedDict,保证会按照成员添加时的顺序遍历成。net['output'] = nn.Linear(256, 10) # 添加。

2024-12-03 15:32:14 1565

原创 pytorch学习三

这里需要确保label是从0开始的,同时模型不加softmax层(使用logits计算),这也说明了PyTorch训练中各个部分不是独立的,需要通盘考虑。# model = nn.DataParallel(model).cuda() # 多卡训练时的写法,之后的课程中会进一步讲解)- .values :将选取的这些列的数据转换为 numpy 数组形式,以便于后续的数值计算。- 最后将处理好的图像数据数组赋值给实例的 self.images 属性。上层的输出与下层的输入相等。

2024-11-28 17:51:50 1433

原创 pytorch学习二

例如,在一个简单的线性回归模型训练过程中,计算出损失后,调用 loss.backward() ,模型的权重和偏置张量的 .grad 属性就会被更新为损失函数关于它们。- 首先,在PyTorch中,需要设置模型的参数(例如神经网络的权重和偏置)的 requires_grad 属性为 True。在优化模型参数(例如使用梯度下降算法)的过程中,我们需要知道模型每一项参数的梯度方向,以此来更新参数。# 以(3,2)和(-1,2)为例,如果确定了2这一维度,懒得算3,可以直接填个-1,计算机会自动填补。

2024-11-24 16:55:47 1324

原创 python

其一般形式为 range(start, stop[, step]),其中 start 是序列的开始值,stop 是序列结束的上限(注意,生成的序列不包括 stop 值),而 step 是可选的步长,若不进行设定,则默认为1。例如,有一个元组 t = (1, 2) ,可以这样解包: a, b = t ,执行后 a 的值为 1 , b 的值为 2。4.剪枝—— 在搜索过程中,通过预测或特定的判断条件,提前剪掉不可能是最优解的分支,避免不必要的搜索,从而加速搜索速度的一种算法。如果为 False,则退出循环。

2024-11-19 23:00:10 689

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除