自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

银晗的学习博客

小白菜慢慢长大的记录

  • 博客(125)
  • 收藏
  • 关注

原创 RankCSE

pointwise方法损失函数计算只与单个document有关,本质上是训练一个分类模型或者回归模型,判断这个document与当前的这个query相关程度,最后的排序结果就是从模型对这些document的预测的分值进行一个排序。对于pointwise方法,给定一个query的document list,对于每个document的预测与其它document是独立的。LTR有三种主要的方法:PointWise,PairWise,ListWise。精排是整个推荐环节的重中之重,在特征和模型上都会做的比较复杂;

2024-04-08 16:35:26 546

原创 位置编码学习

我们对长度外推的期望其实不仅仅是“平移不变性”,而是“平移更好性”,也就是说越往后效果应该越好才对(比如In Context Learning场景,给的examples越多,效果应该越好),所以模型还应该要能捕捉全局依赖的能力。而NTK-aware Scaled RoPE通过“高频外推、低频内插”隐含了两者优点,保证了局域性,又没有明显外推位置编码,所以不微调也有不错的效果。位置内插虽然没有外推位置编码,但扰乱了局域性(0附近位置编码被压缩为),所以不微调效果也不好;内,注意力机制的能力大大削弱。

2024-04-08 16:34:15 1125

原创 预训练任务

对于短序列生成,建议无监督的目标函数在领域内无监督的数据上预训练,会对下游任务产生增益,重复的数据会损失性能训练生成式模型,需要大量且多样的数据集小模型在大量数据上训练,要优于大模型在少量数据上训练。

2024-04-08 16:33:44 1198

原创 预训练细节

执行auto_split.sh文件,作用是分割大文件,超过1GB的文件,会自动分割未300M的小文件。

2024-04-08 16:33:19 236

原创 RAG & Agent调研

这种方法的好处是,你可以离线处理文章中的词等细粒度的向量表示,从而大大加速检索的效率(DR中,每拿到一个新的document,都需要将这个document进行向量化)。基于查询的RAG也被称为提示增强。然而,SR方面,ColBERT 或 AligneR 等后期交互模型试图通过计算每个token的向量,然后以某种方式利用它们,来减轻必须选择在固定大小的向量中出现的存储等的问题。在基于潜在表示的检索增强生成(RAG)框架中,生成模型与检索到对象的潜在表示进行交互,从而增强了模型的理解能力和生成内容的质量。

2024-04-08 16:32:17 746

原创 RLHF学习

Actor-Critic 算法本质上是基于策略的算法,因为这一系列算法的目标都是优化一个带参数的策略,只是会额外学习价值函数,从而帮助策略函数更好地学习。Bradley-Terry(BT)模型是一个常见选择(在可以获得多个排序答案的情况下,Plackett-Luce 是更一般的排序模型)与以往的 RLHF 方法(先学习一个奖励函数,然后通过强化学习优化)不同,我们的方法跳过了奖励建模步骤,直接使用偏好数据优化语言模型。基于值函数的方法只学习一个价值函数,而基于策略的方法只学习一个策略函数。

2024-01-26 15:27:48 1039

原创 多模态大模型

对于给定的边界框,应用规范化处理(在范围[0, 1000]内)并转换为指定的字符串格式:“(Xtopleft, Ytopleft),(Xbottomright, Ybottomright)”。该字符串被标记为文本,不需要额外的位置词汇。此外,为了适当将边界框与其对应的描述性词或句子进行关联,引入了另一组特殊标记(< ref>和< /ref>),标记边界框所指的内容。为了区分检测字符串和常规文本字符串,在边界框字符串的开头和结尾分别添加两个特殊标记(< box >和< /box >)。

2024-01-26 10:54:34 353

原创 PPO学习

在对 query 和 response 的连接进行前向传递后获得的奖励将具有形状 (B, T, 1) ,其中 B 是 BS(批量大小),T 是序列长度 (始终相同;在 OAI 的设置中,它是 query_length + response_length = 64 + 24 = 88 ,用于风格任务,参见 launch.py#L9-L11),1 是奖励头其维度为 1原始代码库提取最后一个 token 的奖励 ,因此奖励将只具有形状 (B, 1)

2024-01-24 18:47:21 862

原创 MoEs学习

之所以是 47B 而不是 8 x 7B = 56B,是因为在 MoE 模型中,只有 FFN 层被视为独立的专家,而模型的其他参数是共享的。比如,假设我们的输入批量包含 10 个令牌, 可能会有五个令牌被路由到同一个专家,而剩下的五个令牌分别被路由到不同的专家。因为所有张量的形状在编译时是静态确定的,我们无法提前知道多少令牌会分配给每个专家,因此需要一个固定的容量因子。:尽管较大的批量大小通常有利于提高性能,但当数据通过激活的专家时,实际的批量大小可能会减少。稀疏性的概念采用了条件计算的思想。

2024-01-23 11:37:30 1133

原创 RLHF训练代码

trl的RLHF代码地址

2024-01-23 10:15:28 373

原创 ICL和FT

In Context Learning 到底在干嘛

2024-01-23 10:14:47 303

原创 空间地理技术

空间信息是反映地理实体(或地理现象)空间分布特征的信息,空间分布特征包括位置、形状和空间关系等。空间信息/空间数据用于描述地理实体(地理现象)空间位置、形状、大小及其分布特征等诸多方面的信息的数据,描述的是现实世界中的实体,具有定位、定性、时间和空间关系等特性。三个基本特征:空间特征(定位)、属性特征(非定位)、时间特征(时间尺度)。

2023-12-27 23:02:40 911

原创 Modelscope Agent初体验与思考

那么Agent又是什么?agent用来调用外部 API 来获取模型权重中缺失的额外信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。

2023-12-10 14:55:30 1760 1

原创 Agent相关工作调研

API搜索引擎将查找API池,找到最佳匹配并返回相关文档以帮助模型了解如何使用它。检索到的API可能不是模型需要的,因此模型必须决定是修改关键字并重新搜索,还是放弃API调用并回复。

2023-12-10 14:54:21 392

原创 Beam Search学习

在生成的时候,模型的输出是一个时间步一个时间步依次获得的,而且前面时间步的结果还会影响后面时间步的结果。也就是说,每一个时间步,模型给出的都是基于历史生成结果的条件概率。在文本生成任务中,每一个时间步可能的输出种类称为字典大小(vocabulary size,我们用V表示),进行T步随机的生成可能获得的结果总共有VT种。拿中文文本生成来说,V 的值大约是5000-6000,即常用汉字的个数。在如此大的基数下,遍历整个生成空间是不现实的。

2023-12-06 16:01:00 937

原创 咱们边玩边学BLIP2

具体来说,在助攻生成过程中,特定的助攻模型将返回模型的生成 output 或。函数负责执行不同的生成方法和逻辑以生成模型的输出。它允许用户根据实际需要执行不同的生成方法,并支持其他参数的进一步控制。这个函数给了人们灵活的选择,以获得满足需求的生成输出。函数根据模型的生成配置、输入和相应的参数调用相应的生成方法,包括模型的贪婪搜索、显示搜索、样本生成等。函数可以进入不同的生成模式和执行相应的生成方法,比如贪婪搜索,显示搜索等。接下来,通过选择合适的方法和参数对模型进行生成,并返回生成的输出。

2023-12-05 14:37:56 788

原创 InterLM代码解析

这个条件 mask_cond < (mask_cond + 1).view(mask.size(-1), 1) 创建了一个下三角为True,上三角为False的条件掩码。在注意力计算中,当掩码中某个位置的元素为负无穷小时,经过softmax计算后,该位置对应的注意力权重会趋近于0,即忽略该位置的信息。因此,使用反转的掩码来填充掩码张量中的元素是为了在注意力计算中实现对未来信息的屏蔽。函数将这个全零张量和当前的mask进行拼接,以便将过去的信息与当前的信息合并在一起,形成一个更大的掩码张量。

2023-12-04 16:10:16 1078

原创 SimCSE论文阅读

温度系数的作用是调节对困难样本的关注程度:越小的温度系数越关注于将本样本和最相似的困难样本分开,去得到更均匀的表示。在无监督无标注的情况下,这样的伪负例,其实是不可避免的,首先可以想到的方式是去扩大语料库,去加大batch size,以降低batch训练中采样到伪负例的概率,减少它的影响。可以把不同的负样本想像成同极点电荷在不同距离处的受力情况,距离越近的点电荷受到的库伦斥力更大,而距离越远的点电荷受到的斥力越小。对比损失中,越近的负例受到的斥力越大,具体的表现就是对应的负梯度值越大[4]。

2023-12-04 09:47:46 1368 1

原创 比赛调研资料

精准营销基于地理推荐能力乡村圈分析能力都市圈分析能力。

2023-11-20 21:35:36 220

原创 LLM部署-Fastllm

model支持了ChatGLM的API函数chat, stream_chat,因此ChatGLM的demo程序无需改动其他代码即可运行model还支持下列API用于生成回复。

2023-10-31 13:13:53 270 1

原创 BaiChuan-QWen

总结一下百川和千问的训练技术报告对要点

2023-10-29 21:51:57 274

原创 如何训练Embedding 和 Rerank Model

对于中文,指令是为这个句子生成表示以用于检索相关文章:. 在评测中,针对段落检索任务的任务需要在查询中添加指令,但不需要为段落文档添加指令。对比损失的温度为0.01。:除了上述三元组中的反例外,他们还采用了“in-batch negatives”策略,意思是在同一个批次的数据中,使用其他数据作为额外的反例。:模型接受三元组格式的数据作为输入,包括一个查询(query),一个正例(positive),和一个反例(negative)。:这是一种在不同的GPU之间共享反例的方法,目的是大大增加反例的数量。

2023-10-26 19:09:59 1188

原创 LLM-Based Agent

之前的一些研究更加注重算法设计和训练策略,**而忽视了模型固有的通用能力的发展,如知识记忆、长期规划、有效泛化和高效互动等**。事实证明,增强模型固有能力是推动智能代理进一步发展的关键因素。如果将 NLP 到 AGI 的发展路线分为五级:**语料库、互联网、感知、具身和社会属性**,那么目前的大型语言模型已经来到了第二级,具有互联网规模的文本输入和输出。在这个基础上,如果赋予 LLM-based Agents `感知空间`和`行动空间`,它们将达到第三、第四级。进一步地,多个代理通过互动、合作解决更

2023-10-24 09:52:41 626

原创 关于Scaling Laws

scaling law ,大模型的能力与参数量、数据量的关系

2023-10-20 19:19:34 91

原创 DeepSpeed

使用DeepSpeed时,首先需要提供一个ds_config文件然后参照上文基础用法,将model用deepspeed.initialize()包装起来deepspeed.initialize()内部会初始化通信,所以就不需要手动调用dist.init_process_group()了(当然也可以手动调用deepspeed.init_distributed()来初始化)

2023-09-12 11:40:08 1363

原创 ChatGLM学习

在传统的自注意力机制中,输入序列中的每个位置都会计算一个注意力权重,用于对其他位置的信息进行加权聚合。而在双流自注意力机制中,会引入两个注意力流,分别用于处理不同类型的信息。它是基于自注意力机制(self-attention)的扩展,通过引入两个独立的注意力流来处理不同类型的信息。,从其中采样文本span{s1,· · ·,sm},其中每个si表示连续令牌的跨度,并用单个掩码替换si,要求模型对它们进行自回归恢复。:条件独立性假设,预测每个mask的时候是并行的,没有考虑mask之间的关系。

2023-09-07 20:20:56 2106

原创 关于大模型参数微调的不同方法

在GPT-3中,提示标记(Prompt Tuning)的表示。

2023-09-03 16:22:52 1496

原创 CLIP:连接文本-图像

以图像维度为例简单说明一下这里的逻辑,因为在计算相似度的时候,图像特征矩阵@文本特征矩阵得到的 n x n 矩阵,第一个n 代表的图像,因此我们在axis=0 计算图像维度的loss。点积运算计算文本-图像的cosine similarity,得到 n x n 矩阵的logits(模型预测),越接近1则说明模型预测该文本-图像对是配对的,否则不配对。在训练过程中,模型学会了将图像和文本编码成统一的向量空间,这使得它能够在语言和视觉上理解它们之间的关系。通过图像&文本编码器,得分图像和文本特征。

2023-09-03 12:49:21 278

原创 数据并行 - DP/DDP/ZeRO

受通讯负载不均的影响,DP一般用于单机多卡场景。因此,DDP作为一种更通用的解决方案出现了,既能多机,也能单机。DDP首先要解决的就是通讯问题:将Server上的通讯压力均衡转到各个Worker上。实现这一点后,可以进一步去Server,留Worker。聚合梯度 + 下发梯度这一轮操作,称为AllReduce。接下来我们介绍目前最通用的AllReduce方法:Ring-AllReduce。它由百度最先提出,非常有效地解决了数据并行中通讯负载不均的问题,使得DDP得以实现。太妙了,直接看图吧。

2023-09-01 20:03:12 438

原创 LoRA学习笔记

通过对输入数据增加前缀(prefix)来做微调。当然,prefix也可以不止加载输入层,还可以加在Transformer Layer输出的中间层。对于GPT这样的生成式模型,在输入序列的最前面加入prefix token,图例中加入2个prefix token,在实际应用中,prefix token的个数是个超参,可以根据模型实际微调效果进行调整。对于BART这样的Encoder-Decoder架构模型,则在x和y的前面同时添加prefix token。在后续微调中,我们。

2023-08-29 22:28:08 653

原创 Prompt Engineering for Developer

多条文本:放在一个list里面,然后for遍历你的任务是从电子商务网站上的产品评论中提取相关信息。请对三个反引号之间的评论文本进行概括,最多20个词汇。评论文本: ```{reviews[i]}```"""print(f"评论{i+1}: ", response, "\n")

2023-08-27 18:11:01 956 1

原创 对比学习 Contrast Learning

监督对比学习的目标是最大化正样本对(同一类别的样本)的一致性,并最小化负样本对(不同类别的样本)的一致性。监督对比损失通过鼓励正样本对的表示在嵌入空间中更加接近,同时将负样本对的表示推开来实现这一目标。对比损失:Supervised Contrastive Loss(监督对比损失)是一种在监督对比学习中使用的损失函数。它旨在学习既具有区分性又具有对同一类别内变化具有不变性的表示。

2023-08-27 16:40:01 397

原创 LONG-TAILED RECOGNITION 精读

paper read, 解决类别不平衡问题

2023-08-27 14:59:04 404 1

原创 《动手学深度学习》优化算法学习&习题

《动手学深度学习》优化算法章节详解

2023-08-07 09:52:28 155

原创 Bert详细学习及代码实现详解

BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在方法上,即用了Masked LM和两种方法分别捕捉词语和句子级别的representation。

2023-08-07 09:50:45 2038

原创 Bert经典变体学习

ALBERT就是为了解决模型参数量大以及训练时间过长的问题。ALBERT最小的参数只有十几M, 效果要比BERT低1-2个点,最大的xxlarge也就200多M。可以看到在模型参数量上减少的还是非常明显的,但是在速度上似乎没有那么明显。最大的问题就是这种方式其实并没有减少计算量,也就是受推理时间并没有减少,训练时间的减少也有待商榷。整个模型的结构还是依照了BERT的骨架,采用了Transformer以及GELU激活函数。

2023-07-28 10:38:14 1049

原创 X - Transformer

Transformer 最初是作为机器翻译的序列到序列模型提出的,而后来的研究表明,基于 Transformer 的预训练模型(PTM) 在各项任务中都有最优的表现。因此,Transformer 已成为 NLP 领域的首选架构,尤其是 PTM。除了语言相关的应用,Transformer 还被用于 CV、音频处理,甚至是化学和生命科学。由于取得了成功,过去几年研究者又提出了各种 Transformer 变体(又名 X-former)。

2023-07-24 16:36:10 1013

原创 Diffusion Model 浅学笔记

要讲扩散模型,不得不提VAE。VAE和GAN一样,都是从隐变量Z生成目标数据X。它们假设隐变量服从某种常见的概率分布(比如正态分布),然后希望训练一个模型X=g(Z)X=g(Z)X=g(Z),这个模型将原来的概率分布映射到训练集的概率分布,也就是分布的变换。是不是听上去很work?但是这种方法本质上是难以work的,因为尽量接近并没有一个确定的关于XXX和Xˉ\bar{X}Xˉ的相似度的评判标准。换句话说,

2023-07-24 16:00:50 169

原创 蛋白质分子结构设计

ai for science , Diffab基于扩散模型的分子结构生成

2023-07-24 15:54:10 156

原创 Time Series Classification

时间序列分类

2023-07-18 09:19:28 347

2022东京奥运会奖牌数据集

2022东京奥运会各国获得的奖牌数据集,包括金牌、银牌、铜牌

2023-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除