银晗-CSDN博客

原创关于Text Embedding检索模型

a) 将模型最后一层[CLS]位置的向量表征直接作为句向量。b) 将模型最后一层[CLS]位置的向量表征，再经过MLP层得到的向量。c) 将模型最后一层所有位置的向量表征，再经过一个Pooling层得到的向量。（大部分情况下采用的是mean pooling，在有些情况下也会使用max pooling等其他方式）d) 将模型最后一层所有位置的向量表征，再经过一个Pooling层跟MLP层得到的向量。

2024-05-04 14:48:05 908

原创 LLM推理优化

实际上 MQA 运算量和 MHA 是差不多的，可理解为读取一组 KV 头之后，给所有 Q 头用，但因为之前提到的内存和计算的不对称，所以是有利的。标准Attention算法由于要计算softmax，而softmax都是按行来计算的，即在和V做矩阵乘之前，需要让 Q、K 的各个分块完成整一行分块的计算得到Softmax的结果后，再和矩阵V分块做矩阵乘。而在Flash Attention中，将输入分割成块，并在输入块上进行多次传递，从而以增量方式（做加法，避免copy）执行softmax缩减。

2024-05-04 14:47:38 705

原创 Diffusion初学

扩散过程：Stable Diffusion的基础是扩散模型，这种模型通过逐步添加噪声将数据（如图像）转换成无结构的噪声。具体来说，这个过程通过多个步骤逐渐增加噪声，每一步都基于高斯分布添加噪声，直到数据完全转变为噪声。变分自编码器（VAE）：Stable Diffusion使用VAE来学习数据的压缩表示，这有助于提高模型的效率和生成质量。在扩散过程的开始，使用VAE编码的图像而不是原图，这样可以减少扩散模型需要处理的数据复杂度。去噪过程：与扩散过程相反，去噪过程从噪声中恢复出原始数据。

2024-05-04 14:46:59 1176

原创 RankCSE

pointwise方法损失函数计算只与单个document有关，本质上是训练一个分类模型或者回归模型，判断这个document与当前的这个query相关程度，最后的排序结果就是从模型对这些document的预测的分值进行一个排序。对于pointwise方法，给定一个query的document list，对于每个document的预测与其它document是独立的。LTR有三种主要的方法：PointWise，PairWise，ListWise。精排是整个推荐环节的重中之重，在特征和模型上都会做的比较复杂；

2024-04-08 16:35:26 642

原创位置编码学习

我们对长度外推的期望其实不仅仅是“平移不变性”，而是“平移更好性”，也就是说越往后效果应该越好才对（比如In Context Learning场景，给的examples越多，效果应该越好），所以模型还应该要能捕捉全局依赖的能力。而NTK-aware Scaled RoPE通过“高频外推、低频内插”隐含了两者优点，保证了局域性，又没有明显外推位置编码，所以不微调也有不错的效果。位置内插虽然没有外推位置编码，但扰乱了局域性（0附近位置编码被压缩为），所以不微调效果也不好；内，注意力机制的能力大大削弱。

2024-04-08 16:34:15 1319

原创预训练任务

对于短序列生成，建议无监督的目标函数在领域内无监督的数据上预训练，会对下游任务产生增益，重复的数据会损失性能训练生成式模型，需要大量且多样的数据集小模型在大量数据上训练，要优于大模型在少量数据上训练。

2024-04-08 16:33:44 1252

原创预训练细节

执行auto_split.sh文件，作用是分割大文件，超过1GB的文件，会自动分割未300M的小文件。

2024-04-08 16:33:19 280

原创 RAG & Agent调研

这种方法的好处是，你可以离线处理文章中的词等细粒度的向量表示，从而大大加速检索的效率（DR中，每拿到一个新的document，都需要将这个document进行向量化）。基于查询的RAG也被称为提示增强。然而，SR方面，ColBERT 或 AligneR 等后期交互模型试图通过计算每个token的向量，然后以某种方式利用它们，来减轻必须选择在固定大小的向量中出现的存储等的问题。在基于潜在表示的检索增强生成（RAG）框架中，生成模型与检索到对象的潜在表示进行交互，从而增强了模型的理解能力和生成内容的质量。

2024-04-08 16:32:17 1037

原创 RLHF学习

Actor-Critic 算法本质上是基于策略的算法，因为这一系列算法的目标都是优化一个带参数的策略，只是会额外学习价值函数，从而帮助策略函数更好地学习。Bradley-Terry（BT）模型是一个常见选择（在可以获得多个排序答案的情况下，Plackett-Luce 是更一般的排序模型）与以往的 RLHF 方法（先学习一个奖励函数，然后通过强化学习优化）不同，我们的方法跳过了奖励建模步骤，直接使用偏好数据优化语言模型。基于值函数的方法只学习一个价值函数，而基于策略的方法只学习一个策略函数。

2024-01-26 15:27:48 1903

原创多模态大模型

对于给定的边界框，应用规范化处理（在范围[0, 1000]内）并转换为指定的字符串格式：“(Xtopleft, Ytopleft),(Xbottomright, Ybottomright)”。该字符串被标记为文本，不需要额外的位置词汇。此外，为了适当将边界框与其对应的描述性词或句子进行关联，引入了另一组特殊标记（< ref>和< /ref>），标记边界框所指的内容。为了区分检测字符串和常规文本字符串，在边界框字符串的开头和结尾分别添加两个特殊标记（< box >和< /box >）。

2024-01-26 10:54:34 527

原创 PPO学习

在对 query 和 response 的连接进行前向传递后获得的奖励将具有形状 (B, T, 1) ，其中 B 是 BS(批量大小)，T 是序列长度 (始终相同;在 OAI 的设置中，它是 query_length + response_length = 64 + 24 = 88 ，用于风格任务，参见 launch.py#L9-L11)，1 是奖励头其维度为 1原始代码库提取最后一个 token 的奖励，因此奖励将只具有形状 (B, 1)

2024-01-24 18:47:21 925

原创 MoEs学习

之所以是 47B 而不是 8 x 7B = 56B，是因为在 MoE 模型中，只有 FFN 层被视为独立的专家，而模型的其他参数是共享的。比如，假设我们的输入批量包含 10 个令牌，可能会有五个令牌被路由到同一个专家，而剩下的五个令牌分别被路由到不同的专家。因为所有张量的形状在编译时是静态确定的，我们无法提前知道多少令牌会分配给每个专家，因此需要一个固定的容量因子。：尽管较大的批量大小通常有利于提高性能，但当数据通过激活的专家时，实际的批量大小可能会减少。稀疏性的概念采用了条件计算的思想。

2024-01-23 11:37:30 1444

原创 RLHF训练代码

trl的RLHF代码地址

2024-01-23 10:15:28 435

原创 ICL和FT

In Context Learning 到底在干嘛

2024-01-23 10:14:47 331

原创空间地理技术

空间信息是反映地理实体（或地理现象）空间分布特征的信息，空间分布特征包括位置、形状和空间关系等。空间信息/空间数据用于描述地理实体（地理现象）空间位置、形状、大小及其分布特征等诸多方面的信息的数据，描述的是现实世界中的实体，具有定位、定性、时间和空间关系等特性。三个基本特征：空间特征（定位）、属性特征（非定位）、时间特征（时间尺度）。

2023-12-27 23:02:40 967

原创 Modelscope Agent初体验与思考

那么Agent又是什么？agent用来调用外部 API 来获取模型权重中缺失的额外信息（通常在预训练后很难更改），包括当前信息、代码执行能力、对专有信息源的访问等。

2023-12-10 14:55:30 2050 1

原创 Agent相关工作调研

API搜索引擎将查找API池，找到最佳匹配并返回相关文档以帮助模型了解如何使用它。检索到的API可能不是模型需要的，因此模型必须决定是修改关键字并重新搜索，还是放弃API调用并回复。

2023-12-10 14:54:21 432

原创 Beam Search学习

在生成的时候，模型的输出是一个时间步一个时间步依次获得的，而且前面时间步的结果还会影响后面时间步的结果。也就是说，每一个时间步，模型给出的都是基于历史生成结果的条件概率。在文本生成任务中，每一个时间步可能的输出种类称为字典大小(vocabulary size，我们用V表示)，进行T步随机的生成可能获得的结果总共有VT种。拿中文文本生成来说，V 的值大约是5000-6000，即常用汉字的个数。在如此大的基数下，遍历整个生成空间是不现实的。

2023-12-06 16:01:00 1437

原创咱们边玩边学BLIP2

具体来说，在助攻生成过程中，特定的助攻模型将返回模型的生成 output 或。函数负责执行不同的生成方法和逻辑以生成模型的输出。它允许用户根据实际需要执行不同的生成方法，并支持其他参数的进一步控制。这个函数给了人们灵活的选择，以获得满足需求的生成输出。函数根据模型的生成配置、输入和相应的参数调用相应的生成方法，包括模型的贪婪搜索、显示搜索、样本生成等。函数可以进入不同的生成模式和执行相应的生成方法，比如贪婪搜索，显示搜索等。接下来，通过选择合适的方法和参数对模型进行生成，并返回生成的输出。

2023-12-05 14:37:56 1162

原创 InterLM代码解析

这个条件 mask_cond < (mask_cond + 1).view(mask.size(-1), 1) 创建了一个下三角为True，上三角为False的条件掩码。在注意力计算中，当掩码中某个位置的元素为负无穷小时，经过softmax计算后，该位置对应的注意力权重会趋近于0，即忽略该位置的信息。因此，使用反转的掩码来填充掩码张量中的元素是为了在注意力计算中实现对未来信息的屏蔽。函数将这个全零张量和当前的mask进行拼接，以便将过去的信息与当前的信息合并在一起，形成一个更大的掩码张量。

2023-12-04 16:10:16 1207 1

原创 SimCSE论文阅读

温度系数的作用是调节对困难样本的关注程度：越小的温度系数越关注于将本样本和最相似的困难样本分开，去得到更均匀的表示。在无监督无标注的情况下，这样的伪负例，其实是不可避免的，首先可以想到的方式是去扩大语料库，去加大batch size，以降低batch训练中采样到伪负例的概率，减少它的影响。可以把不同的负样本想像成同极点电荷在不同距离处的受力情况，距离越近的点电荷受到的库伦斥力更大，而距离越远的点电荷受到的斥力越小。对比损失中，越近的负例受到的斥力越大，具体的表现就是对应的负梯度值越大[4]。

2023-12-04 09:47:46 1484 1

原创比赛调研资料

精准营销基于地理推荐能力乡村圈分析能力都市圈分析能力。

2023-11-20 21:35:36 298

原创 LLM部署-Fastllm

model支持了ChatGLM的API函数chat, stream_chat，因此ChatGLM的demo程序无需改动其他代码即可运行model还支持下列API用于生成回复。

2023-10-31 13:13:53 361 1

原创 BaiChuan-QWen

总结一下百川和千问的训练技术报告对要点

2023-10-29 21:51:57 415

原创如何训练Embedding 和 Rerank Model

对于中文，指令是为这个句子生成表示以用于检索相关文章：. 在评测中，针对段落检索任务的任务需要在查询中添加指令，但不需要为段落文档添加指令。对比损失的温度为0.01。：除了上述三元组中的反例外，他们还采用了“in-batch negatives”策略，意思是在同一个批次的数据中，使用其他数据作为额外的反例。：模型接受三元组格式的数据作为输入，包括一个查询（query），一个正例（positive），和一个反例（negative）。：这是一种在不同的GPU之间共享反例的方法，目的是大大增加反例的数量。

2023-10-26 19:09:59 2836

原创 LLM-Based Agent

之前的一些研究更加注重算法设计和训练策略，**而忽视了模型固有的通用能力的发展，如知识记忆、长期规划、有效泛化和高效互动等**。事实证明，增强模型固有能力是推动智能代理进一步发展的关键因素。如果将 NLP 到 AGI 的发展路线分为五级：**语料库、互联网、感知、具身和社会属性**，那么目前的大型语言模型已经来到了第二级，具有互联网规模的文本输入和输出。在这个基础上，如果赋予 LLM-based Agents `感知空间`和`行动空间`，它们将达到第三、第四级。进一步地，多个代理通过互动、合作解决更

2023-10-24 09:52:41 1055

2022东京奥运会奖牌数据集

空空如也