自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(198)
  • 资源 (1)
  • 收藏
  • 关注

转载 怎样读好你的研究生?

编辑推荐:  很早之前就想提笔写这样一篇文章,但时间总不给我一个喘气的机会,趁今天有一点小空写写,一方面算是总结自己对人生、科研、梦想的认识,一方面算是给自己的师弟、师妹,以及我带过的本科生们一些方向上的东西。  出处:科学网辛利鹏很早之前就想提笔写这样一篇文章,但时间总不给我一个喘气的机会,趁今天有一点小空写写,一方面算是总结自己对人生、科研、梦想的认识,一方面算是给自己的师

2015-12-01 15:09:29 831

转载 ColBERT-经典的延迟交互式的相似度匹配模型

ColBERT使用了"延迟交互"来计算query与doc的相似度。具体来说,就是对query与doc分别编码之后,使用简单且有效的模块来评估相似度。:分别将query-doc使用编码器进行编码,得到两者表示向量之后,使用相似度计算函数,例如余弦距离,来算出query-doc相似分数。典型代表:DSSM、SRNM。:很明显上述模式的缺点是没有充分利用query与doc之间的交互(分别将query与doc独立编码)。

2024-07-15 21:20:33 10

转载 DSSM:深度语义匹配模型(及其变体CLSM、LSTM-DSSM)

如下图所示,上一层的输出 h(t-1) concat 上本层的输入 xt,经过一个 sigmoid 网络(输出门)产生一个从 0 到 1 的数值 Ot,细胞状态 Ct 经过 tanh 网络做非线性变换,得到结果再与 sigmoid 的结果 Ot 相乘,最终决定有哪些信息可以输出,输出的结果 ht 会作为这个细胞的输出,也会作为传递个下一个细胞。DSSM 的表示层采用 BOW(Bag of words)的方式,相当于把字向量的位置信息抛弃了,整个句子里的词都放在一个袋子里了,不分先后顺序。

2024-07-15 21:12:35 20

原创 Lora和QLora

QLora 用4bit训练 但是可以恢复到16精度。

2024-07-08 09:19:57 221

原创 简明大模型微调/推理显存资源计算

2024-07-08 09:05:56 135

转载 GGUF格式的大模型文件

不同的计算平台可能采用不同的端序。很多模型模型,如Yi-34B、Llama2-70B等模型都有对应的GGUF版本,这些版本都模型除了文件名多了GGUF外,其它与原有的模型名称完全一致。此前,Georgi Gerganov推出了GGML工具,并推出了与之相应的大模型格式GGML,但是由于GGML设计落后于时代的发展,因此被弃用,由GGUF替代。大语言模型的开发通常使用PyTorch等框架,其预训练结果通常也会保存为相应的二进制格式,如pt后缀的文件通常就是PyTorch框架保存的二进制预训练结果。

2024-07-08 08:54:49 55

转载 经典双塔模型:微软DSSM模型(Deep Structured Semantic Models)

前言写在前面:这是一篇和原论文关系不大的博客(大家如果有兴趣看原始论文,可以先看完原始论文后,再来看本博客),基本上是基于个人在工作实践中的经验以及思考写成的一篇关于DSSM的博客,先定基调:DSSM主要用在召回和粗排阶段。DSSM全称Deep Structured Semantic Models,是伊利诺伊大学厄巴纳-香槟分校(UIUC)与微软于2013年发表在CIKM上的,盲猜是一作在微软实习时的工作,所以基本上是微软的成果。

2024-07-07 22:04:35 36

转载 Wide & Deep、DeepFM系列算法原理与优缺点对比

一、Wide & Deep模型Wide & Deep Learning 模型的核心思想是结合广义线性模型的记忆能力(memorization)和深度前馈神经网络模型的泛化能力(generalization)。利用广义线性模型从历史数据中学习特征相关性,利用深度前馈神经网络揭示隐式特征之间的相互作用。在训练过程中同时优化 2 个模型的参数,从而达到整体模型的预测能力最优。Wide & Deep模型结构如下图,左边是wide部分,右边是deep部分。关于深度前馈网络的基本原理可以参考这里。

2024-07-07 21:59:24 43

转载 DeepFM模型CTR预估

点击率(Click Through Rate, CTR)预估是程序化广告里的一个最基本而又最重要的问题。比如在竞价广告里,排序的依据就是ctr×bid。通过选择ctr×bid最大的广告就能最大化平台的eCPM。从机器学习的角度来说这是一个普通的回归问题,但是它的特殊性在于训练数据只有0/1的值——因为我们没有办法给同一个用户展示同一个广告1万次,然后统计点击的次数来估计真实的点击率。

2024-07-07 21:36:32 24

原创 GraphRAG

RAG 是一种自然语言查询方法,用于通过外部知识增强现有的LLM,因此如果问题需要特定知识,问题的答案会更相关。它包括一个检索信息组件,用于从外部源获取附加信息,也称为“基础上下文”,然后将其馈送到 LLM 提示以更准确地回答所需的问题。这种方法是最便宜和最标准的方法,可以通过额外的知识来增强 LLM 以回答问题。此外,它被证明可以减少 LLM 产生幻觉的倾向,因为这一代人更坚持来自上下文的信息,而这些信息通常是可靠的。由于该方法的这种性质,RAG 成为增强生成模型输出的最流行的方法。

2024-07-07 20:11:37 988

转载 AIOps与大模型

Artificial Intelligence for IT Operations(AIOps,IT 智能运维)是指结合大数据和 Machine Learning,将包括异常检测、事件关联以及运营数据采集和处理在内的 IT 流程实现自动化。借助 AIOps,团队能够大幅减少大规模检测、了解、调查和解决事件所需的时间和精力。进而,在故障排查期间节省时间便可让 IT 团队将更多精力投入到更有价值的任务和项目上。面向 IT 运营的智能运维 AIOps一词由 Gartner 创造,是指应用人工智能 (AI)

2024-07-07 15:54:36 32

原创 大语言模型

Vicuna是在LLaMa-13B的基础上使用监督数据微调得到的模型,数据集来自于ShareGPT.com 产生的用户对话数据,共70K条。调整训练损失考虑多轮对话,并仅根据模型的输出进行微调。Alpaca是斯坦福在LLaMa-7B的基础上监督微调出来的模型,斯坦福是用OpenAI的Text-davinci-003 API配合self-instruct技术,使用175个提示语种子自动生成了52K条提示-回复的指示数据集,在LLaMa-7B上微调得到的模型,在8张80G的A100上训练了3小时。

2024-07-07 15:16:28 526

转载 为什么我们在自我注意力中通过sqrt(dk)来划分注意力分数?

当我们使用自我注意力时,我们需要确保表示句子中某一部分应得到的关注程度的数字既不太大也不太小。为了实现这一点,我们将这些注意力分数除以决定注意力所使用的项数的平方根,称为“键向量”。

2024-07-06 17:24:23 23

转载 可视化解释Batch Norm —— 它是如何工作的,以及为什么神经网络需要它

批量归一化是现代深度学习实践者工具箱中不可或缺的一部分。自它在Batch Norm论文中被引入后不久,人们就认识到它在创建可以更快训练的更深神经网络方面具有革命性影响。Batch Norm是一种现在在许多架构中广泛使用的神经网络层。它通常作为线性或卷积块的一部分添加,并在训练过程中帮助稳定网络。在这篇文章,我们会探索什么是Batch Norm,以及为什么需要他和它是怎么工作的?why。

2024-07-06 17:18:42 45

转载 《可视化解释Transformer——不仅解释它是如何工作的,还解释为什么它如此有效》

点积运算在Query和Key之间进行,用于计算每对单词之间的相关性。然后,这种相关性作为“因子”用于计算所有Value单词的加权和。这个加权和输出为注意力分数。Transformer以一种方式学习词嵌入等,使得相关联的词更加对齐。这是引入三个线性层并为Query、Key和Value创建三种输入序列版本的原因之一。这样给注意力模块提供了一些额外的参数,它能够学习调整创建词向量的过程。希望这能让你对Transformer设计的优雅之处有一个良好的理解。

2024-07-06 16:16:34 84

转载 通俗易懂聊flashAttention的加速原理

就是不要存储那么多梯度和每一层的正向传播的中间状态,而是在计算到反向某一层的时候再临时从头开始重算正向传播的中间状态。

2024-07-02 21:20:11 116

转载 PagedAttention(vLLM):更快地推理你的GPT

生成式大模型改变了我们在各个行业中应用人工智能的方式。然而,由于模型参数量巨大,为这些模型提供实际服务带来了挑战,即使在昂贵的硬件上,,这令人感到沮丧。😓近日,来自UC Berkeley的团队推出了一个用于加速LLM推理的开源库vLLM,这也是Vicuna在线推理服务的幕后英雄。利用技术,该库通过有效地管理模块中的和的,重新定义了LLM的推理服务。无需更改任何模型架构,它的吞吐量比原生HF Transformers高出。🚀接下来我们将对这个工作进行一个简单的解读。

2024-07-02 21:00:09 34

转载 使用PyTorch FSDP和Q-Lora高效地微调Llama 3

像Meta的Llama 3、Mistral AI的Mistral与Mixtral模型或AI21的Jamba这样的开源大模型现在成为了OpenAI的竞争者。然而,大多数情况下,你需要在自己的数据上对模型进行微调,以释放模型的全部潜力。对于较小的模型,如Mistral,通过使用Q-Lora,现在在单个GPU上进行微调变得非常方便。但直到现在,高效地对较大的模型如Llama 3 70b或Mixtral进行微调一直是一个挑战。

2024-07-01 23:59:03 40

转载 为检索增强生成(RAG)微调Embedding模型

嵌入模型对于成功的RAG应用至关重要,但它们通常基于通用知识进行训练,这限制了它们在公司或特定领域应用的有效性。Matryoshka表示学习(MRL)是一种旨在创建可以在不显著降低性能的情况下被截断到各种维度的嵌入的技术。这种方法将重要信息前置加载到嵌入的早期维度中,从而在保持高准确度的同时实现下游任务(如检索、分类和聚类)的高效存储和处理。在这篇博客中,我们将向您展示如何使用2023_10 NVIDIA SEC 报告的合成数据集,为金融RAG应用调整嵌入模型。5、对比调整后的模型与基准进行评估。

2024-07-01 23:18:46 80

转载 混合专家模型 (MoE) 详解

与稠密模型相比,预训练速度更快与具有相同参数数量的模型相比,具有更快的推理速度需要大量显存,因为所有专家系统都需要加载到内存中在微调方面存在诸多挑战,但近期的研究表明,对混合专家模型进行指令调优具有很大的潜力。让我们开始吧!模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。

2024-07-01 14:48:08 36

转载 MoE:更快、更强大的新王者,语言大模型时代的君主!

引言为了紧跟人工智能领域的最新进展,我们转向了LLM基准测试,以此来衡量哪些LLM处于领先地位。从最广为人知的基准测试——Open LLM排行榜开始,我们立刻发现排行榜的前10名几乎被命名中包含“MoE”的模型所霸占!为了证实这一趋势,我们转向了Chatbot Arena基准测试,这是评估最佳整体语言模型的标准。在这里,顶级10名又一次被MoE所主宰!实际上,GPT4被怀疑就是其中之一,并且它与Mistral的模型Mixtral(Mix表明其MoE架构)并肩出现。

2024-07-01 11:35:03 32

转载 专家混合器(MOE)——现代架构,用于分解并解决问题的学习

专家混合器是一种集合方法,将整个问题分解为多个子任务,并在每个子任务上对一组专家进行训练。在这篇文章中,我们将讨论专家混合器(MOE)架构是什么,MOE模型的内部工作原理,以及它与现有模型架构有何不同。随着神经网络架构变得越来越复杂,处理不同数据、处理各种响应以及最小化处理能力和时间,专家混合模型将占据主导地位。根据这个,门控网络将每条输入路由到特定的专家层。门控网络和专家层是同时训练的,使得门控网络学习哪些专家层可以信赖来进行预测。在图像分类任务中,我们可以训练每个专家集群来理解不同类别的数据。

2024-07-01 10:29:40 31

转载 探索BGE-M3和Splade:两种用于生成稀疏嵌入的机器学习模型

在这篇博客中,我们探索了向量嵌入的复杂世界,从传统的稀疏和密集形式到创新的学习稀疏嵌入。我们还研究了两个机器学习模型——BGE-M3和Splade——以及它们如何工作以生成学习到的稀疏嵌入。使用这些复杂嵌入来细化搜索和检索系统的可能性,为开发直观且响应迅速的平台开辟了新的可能性。请继续关注未来的帖子,展示这些技术的实际应用和案例研究,展示它们对信息检索标准的影响,承诺重新定义信息检索标准。

2024-06-30 16:51:04 107

转载 通过学习稀疏嵌入提升信息检索——第一部分

总的来说,探索学习得到的稀疏嵌入揭示了信息检索方法学的一个范式转变。通过利用传统稀疏表示与上下文信息的融合,这些嵌入提供了一种多面的解决方案,能够应对精确术语匹配和语义理解的固有挑战。我们观察到,学习得到的稀疏嵌入在捕捉相关关键词和类别的同时保持可解释性,从而在信息检索任务中实现了效率和清晰度之间的微妙平衡。它们与密集检索方法的协同集成进一步提高了准确性和性能,强调了它们在现代信息检索系统中的不可或缺性。

2024-06-30 16:13:42 29

原创 BGE M3-Embedding 模型介绍

BGE M3-Embedding来自BAAI和中国科学技术大学,是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216,论文提出了一种新的embedding模型,称为M3-Embedding,它在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。

2024-06-30 15:17:50 927

原创 大模型RAG问答中的文档分段

值得注意的是,这个阈值θ是一个经验值,旨在避免将相关较大的段落分割开,同时确保它不会太大以至于用过多的上下文超出模型最大长度,影响其推理准确性。例如,实验表明,θ=550时,

2024-06-30 10:44:09 1111

原创 Vector | Graph:蚂蚁首个开源 Graph RAG 框架设计解读

这部分源自于微软的Graph RAG的研究工作,通过构建知识图谱时生成图社区摘要,以解决知识图谱在面向总结性查询时“束手无策”的问题。另外,同时结合图社区总结与子图明细可以生成更高质量的上下文。

2024-06-29 14:15:21 829

转载 【无标题】

​。

2024-06-11 16:33:09 27

转载 Llama-3 8b-sft

【代码】Llama-3 8b-sft。

2024-04-29 09:21:39 62

转载 如何使用 Megatron-LM 训练语言模型

🤗 Transformers 还支持使用 Trainer API 来训练,其在 PyTorch 中提供功能完整的训练接口,甚至不需要自己编写训练的代码。第一种选择是设置张量并行,它将模型中的张量拆分到多个 GPU 上并行运算,你需要将 tensor-model-parallel-size 参数更改为所需的 GPU 数量。你可以使用如下所示配置模型架构和训练参数,或将其放入你将运行的 bash 脚本中。请注意,如果你打算使用原始的分词器,你将需要在转换后将生成的词汇文件和合并表替换为我们之前介绍的原始文件。

2024-04-28 22:55:30 996

转载 大模型词表扩充必备工具SentencePiece

SentencePiece 是一种无监督的文本 tokenizer 和 detokenizer,主要用于基于神经网络的文本生成系统,其中,词汇量在神经网络模型训练之前就已经预先确定了。SentencePiece 实现了subword单元(例如,字节对编码 (BPE))和 unigram 语言模型),并可以直接从原始句子训练字词模型(subword model)。这使得我们可以制作一个不依赖于特定语言的预处理和后处理的纯粹的端到端系统。本文主要给大家讲解了SentencePiece的基本原理及使用方法。

2024-04-28 16:50:59 270

转载 【无标题】

目前来看,虽然词表扩充+预训练+指令精调能够给模型带来明显的性能提升,但是该方案还是显得过于繁重。如果不是有特别充裕的时间和计算资源,不太推荐这种方式。如果既想要中文词表,又没有很大的算力,可以直接使用ChatGLM-6B或者使用BELLE和Chinese-LLaMA-Alpaca进行中文词表扩充后训练好的模型作为Base模型进行微调。

2024-04-28 16:28:55 38

转载 从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读

如果把缓冲区比作一座仓库,每存进一个新东西,都会占据相应的位置,而仓库的总容量是固定的,当仓库被装满时,就会把最早放入的东西移除,让新的物品继续进仓,相当于入仓时间更接近当前时间的物品则会留在仓库中,如此,即能在节约资源的同时保留一定长度的序列。但如果是滑动窗口注意力,则在计算最后一个token “the”时,只需计算the本身所对应的query与上文中3个token对应的key的内积(这里说的上文中的3个token 包括the自己在内)

2024-04-24 21:07:36 331

转载 一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

通过本博客内之前的文章可知,自回归解码的标准做法是缓存序列中先前标记的键(K)和值(V) 对,从而加快注意力计算速度。不过,多查询注意(Multi-query attention,简称MQA)只使用一个键值头,虽大大加快了解码器推断的速度,但MQA可能导致质量下降,而且仅仅为了更快的推理而训练一个单独的模型可能是不可取的。这是一种多查询注意的泛化,它通过折中(多于一个且少于查询头的数量,比如4个)键值头的数量,使得经过强化训练的GQA以与MQA相当的速度达到接近多头注意力的质量,即速度快 质量高。

2024-04-24 20:45:56 158

转载 智能手环/智能手表如何监测睡眠?--一篇文章带你了解其中的原理

一个完整的睡眠周期可分为两大部分:快速眼动(REM)时期和非快速眼动睡眠期(NREM)。而非快速眼动时期又包括:入睡期、浅睡期、熟睡期、深睡期。睡眠阶段(这也就是为什么很多手环厂家把“快速眼动睡眠监测”作为卖点之一的原因,因为只有具备这个能力,才能说明对睡眠状态完整的监测到了。在睡眠中,人在这几个状态中循环往复,每夜通常有 4~5个睡眠周期,每个周期90~110分钟。即大约在90~100分钟的时间内经历一个有5个不同阶段的周期。

2024-01-28 18:43:27 5131

转载 手工微调embedding模型RAG检索能力

本文是一篇关于如何微调embedding的文章,原作者是Wenqi Glantz。主要内容:微调big-large-en开源embedding模型;具体实现代码细节;评测最终的提升效果。

2024-01-14 18:45:11 2104 1

转载 为什么Embedding模型在大语言模型中很重要?

随着大型语言模型的发展,以ChatGPT为首,涌现了诸如ChatPDF、BingGPT、NotionAI等多种多样的应用。公众大量地将目光聚焦于生成模型的进展之快,却少有关注支撑许多大型语言模型应用落地的必不可少的Embedding模型。本文将主要介绍为什么Embedding模型在大语言模型中十分重要、当前主流的Embedding训练方法,以及我们关于Embedding模型初步探索的一些思考。

2024-01-14 12:51:32 761

转载 技术干货:如何训练高性能语义表示模型——交叉编码器VS双编码器

这是有原因的:它们在许多场景下是可以互换的。然而,应该注意的是,知识蒸馏(knowledge distillation)的训练程序中,双编码器的学生模型试图模仿交叉编码器的教师模型,既能让模型精简缩小,也能保留原始模型九成以上甚至反超原始模型的效果,这是非常有实用价值的一个方向。:这就是为什么大型的预训练语言模型需要在非常通用的、数据规模庞大的任务上训练(如遮蔽词语言建模)的原因,其内在逻辑是,经大规模通用语料训练得到的语句嵌入表示反映了模型对语言非常广泛的理解,以后可以根据具体的使用情况进行调整。

2024-01-14 12:37:20 380

转载 A Cheat Sheet and Some Recipes For Building Advanced RAG

.

2024-01-12 08:58:26 126

原创 EMP-SSL: TOWARDS SELF-SUPERVISED LEARNING IN ONETRAINING EPOCH

Recently, self-supervised learning (SSL) has achieved tremendous success in learning image representation. Despite the empirical success, most self-supervised learning methods are rather “inefficient” learners, typically taking hundreds of training epochs

2023-07-26 10:25:59 1728

自然语言语料 大模型语料 金融研报 食品饮料行业 3246篇

自然语言语料 大模型语料 金融研报 食品饮料行业 3246篇

2023-07-26

Understanding DeepLearning

Understanding DeepLearning

2022-12-19

boot2docker v17.03.1-ce

docker

2017-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除