LLM大模型
文章平均质量分 93
各种LLM大模型的原理、源码剖析、垂直领域数据处理、指令微调 lora tuning微调、RLHF强化学习和人类指令对齐的讲解专栏
山顶夕景
实践出真知
展开
-
【LLM】(KV cache优化)MHA、MQA、GQA、MLA、YOCO机制的区别
MHA机制(Multi-head Attention)MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享MQA机制(Multi-Query Attention)MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一原创 2024-02-16 17:08:59 · 1661 阅读 · 0 评论 -
【LLM】chatglm3的agent应用和微调实践
知识库和微调并不是冲突的,它们是两种相辅相成的行业解决方案。开发者可以同时使用两种方案来优化模型。例如:使用微调的技术微调ChatGLM3-6B大模型模拟客服的回答的语气和基础的客服思维。接着,外挂知识库将最新的问答数据外挂给ChatGLM3-6B,不断更新客服回答的内容信息。chatglm3的对话格式中, 部分使用 special token 表示,无法从文本形式被 tokenizer 编码以防止注入。metadata 部分采用纯文本表示,为可选内容。关于glm3的微调:与此原创 2023-11-25 20:34:54 · 7587 阅读 · 20 评论 -
【LLM】sft和pretrain数据处理和筛选方法
# note- 痛点:训练垂直领域模型,sft数据和增量pretrain数据质量把控很重要 - 当数据不够时,通过self-instruct等方法造多样化的数据 - 当数据很多时,需要清洗/筛选出高质量数据@[toc]# 一、sft数据的筛选策略内容概要:- 构造sft数据- 评估sft数据质量和数量- 自动化筛选高质量sft数据## 1.1 使用self-instruct构造sft数据论文:《Self-Instruct: Aligning Language Model wit原创 2023-10-29 17:44:39 · 6166 阅读 · 4 评论 -
【LLM模型篇】LLaMA2 | Vicuna | EcomGPT等
EcomGPT:电商领域大模型解决问题:解决电商场景任务(如品牌识别,评价解析,广告文案生成等)论文链接:https://arxiv.org/abs/2308.06966GitHub链接:https://github.com/Alibaba-NLP/EcomGPT1. sft数据从学术论文或竞赛平台等开放数据源收集了共65个各种电商任务数据集,包括命名实体识别、评论问答、商品类目预测、多轮对话等传统的自然语言处理任务。这些开源数据集的任务都是由领域专家设计,然后由受过培训的人工标注,数据质量很高原创 2023-09-02 20:52:23 · 3315 阅读 · 4 评论 -
【LLM】大模型之扩展Context长度(RoPE等方法)
展LLM的Context长度其实已有不少,但多数是通过结合检索或者摘要的方式来缩短样本的长Context,如Unlimiformer。由于不是直接处理长Context,因此通常无法做精细的阅读理解,而且这些方案往往需要在训练阶段就考虑进去,而不是事后即插即用到已有的LLM模型中。2. PCW方法以前能够不微调地扩展Context长度的方案是Parallel Context Window(下面简称PCW),出自论文《Parallel Context Windows for Large Language原创 2023-07-18 06:44:08 · 4009 阅读 · 2 评论 -
【LLM】GLM长文本训练(数据、流程、infra)
GLM融合packing和sorted batching的优点,提出sorted packing训练方法:根据计算量来构建同一批次内的 Pack,确保同一批次中各个 Pack 数据的计算量相近,从而减少了气泡时间。此外,我们还引入了梯度累积技术,以避免排序带来的偏差长短文本混合 SFT 的高效训练方法主要有两种:Packing 和 Sorted Batching。Sorted Batching 可能会引入某些先验知识,即同一批次内的数据长度趋于一致,这有可能导致不良的训练效果。相比之下,Packing 策原创 2024-08-25 20:06:47 · 744 阅读 · 1 评论 -
九类AI应用和五个简单LLM的Prompt技巧
AI+艺术:造梦日记、MidJourney、Stable Diffusion、Adobe、Stability、RemoveAI+聊天:ChatGPT、Discord、文心一言、Google Bard、星火、Character.AlAI+社区:Kaggle、Hugging Face、H20、Github、Replicate、OpenCVAI+创造:Heygen、RunwayML、Jasper、WriteSonicAI+设计:Figma、Canva。原创 2023-06-30 01:36:07 · 471 阅读 · 0 评论 -
【LLM多模态】DreamLLM多模态学习框架
## 1. 端到端的交错生成式预训练(i-gpt)所有自然文档都可以被视为文本和图像交织信息的载体。而仅有文本、仅有图像以及文本和图像配对的数据可以被看作是具有不同模态组合的交织语料库的特殊情况。因此,赋予模型学习和生成自由形式的交织文档的能力是至关重要的,以涵盖所有可能的分布。交错结构学习:为了建模交错结构,通过在图像之前添加一个特殊的"``"标记来操作交错序列。在训练过程中,DREAMLLM被训练来预测这个表示图像出现位置的""标记,并在之后进行条件图像合成。在推理过原创 2024-07-18 18:07:42 · 638 阅读 · 0 评论 -
【LLM多模态】Cogview3模型原理和训练过程
# note - 基础阶段:生成512×512分辨率的图像,优化模型以生成高质量的图像。 - 超分辨率阶段:从512×512的输入生成1024×1024分辨率的图像,进一步优化图像的细节和清晰度。 - 蒸馏版本:通过减少采样步骤,生成与原始模型相似质量的图像,但推理时间大大减少。@[toc]# 一、Cogview3模型论文:CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion相关背景:原创 2024-07-18 13:08:24 · 1258 阅读 · 0 评论 -
【LLM多模态】InternVL模型架构和训练过程
视觉编码器:InternViT-6B动态高分辨率(和很多多模态LLM不一样的地方):我们将图像根据输入图像的纵横比和分辨率划分为1到40块,每块为448×448像素(图像很大则会被切分,每个块被模型独立处理,可以更好地处理图像的细节),从而支持高达4K分辨率的输入(40个小块)。具体的处理方法如下图。使用pixel shuffle将视觉token减少到原来的四分之一(原始为1024个token)。PixelUnshuffle操作(即Space2Depth操作,即把相邻区块的特征从空间维度往通道维度上堆叠原创 2024-07-13 23:24:10 · 2589 阅读 · 0 评论 -
【多模态LLM】以ViT进行视觉表征的多模态模型1(BLIP、BLIP-2、InstructBLIP)
- CLIP和BLIP的区别: - CLIP:通过对比学习联合训练,预测图像和文本之间的匹配关系。即使用双塔结构,分别对图像和文本编码,然后通过计算cos进行图文匹配。 - BLIP:包括两个单模态编码器(图像编码器和文本编码器)、一个图像基础的文本编码器和一个图像基础的文本解码器。BLIP通过联合训练三个损失函数:图像-文本对比损失(ITC)、图像-文本匹配损失(ITM)和语言建模损失(LM),以实现多任务学习和迁移学习。 - 训练方式的区别:除了对比学习,BLIP还采用了一种高效率利用噪声网络数据原创 2024-07-01 21:53:49 · 1354 阅读 · 1 评论 -
【多模态LLM】多模态理解评测标准(图生文)
# note- 评测图片识别、理解、分析、推理能力;评测多轮对话;扩大评测场景(日常生活、教育娱乐等)- SuperClue-V采用6个标准,即正确性、相关性、流畅性、知识延伸、输出样式多样化、多感官信息融合,来定量的评价模型在所构建的指标下的表现能力,其中正确性、相关性、流畅性这三个指标设置为基础等级,旨在区分头部模型与一般模型的能力,而知识延伸、输出样式多样化、多感官信息融合这三个指标设置为扩展等级,旨在进一步区分头部模型之间的能力@[toc]# 一、图生文LLM评测标准文章地址:ww原创 2024-08-03 22:16:04 · 1262 阅读 · 1 评论 -
【LLM】GLM系列模型要点
No Bias Except QKV:为了提升训练速度,我们去除了所有偏差项,除了注意力层中的查询(Query)、键(Key)和值(Value)偏差。这一变化略微改善了长度外推法的性能。RMSNorm 和 SwiGLU:我们用RMSNorm替换了LayerNorm,并用SwiGLU替换了ReLU。这两种策略能够提升模型性能。旋转位置嵌入(RoPE):我们将RoPE扩展到二维形式,以适应GLM中的二维位置编码。分组查询注意力(GQA):我们用GQA替换了传统的多头注意力(MHA),以减少推理过程中原创 2024-06-24 19:58:45 · 1146 阅读 · 0 评论 -
【智源大会2024】(一)智源技术专题
1.千万级数据集: BAAI创建了首个千万级别的高质量开源指令微调数据集。2.模型性能与数据质量: 强调了模型性能与数据质量之间的高度相关性。3.技术亮点: - 使用了高质量的指令数据筛选与合成技术。 - 这些技术显著提升了模型遵循指令的能力。4.性能比较: - 提到综合性能达到了GPT-4的水平。 - 1000条高质量数据微调的效果可以超过52,000条普通数据。5.数据集评估: - 使用了AlpacaEval和MT-Bench等评估工具来筛选数据。原创 2024-06-15 11:03:34 · 324 阅读 · 0 评论 -
【LLM】度小满金融大模型技术创新与应用探索
在数据准备完之后,就要去做预训练。需要针对中文场景做词表构建,对此,行业内大概有两种解决方案。一种是通过字粒度去扩充,因为汉字只看一个单词的话相对有限,大概数量是 5K 到 8K。另外一种就是很多中文大模型所采用的方法,即大量引入中文词汇,这样词表会比较大。考虑到对原有模型要尽量减少破坏,所以我们最终采用了字粒度扩容的方式,加入了 7K 的中文字符。这使得我们的整个词表大小达到 39K,词表压缩率为 48%。在预训练阶段词表优化完之后,训练采用的是两阶段的优化方式,使得收敛更加稳定。第一阶段主要还是解决原创 2024-06-06 00:21:26 · 795 阅读 · 0 评论 -
【LLM】两篇多模态LLM综述MultiModal Large Language Models
note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In原创 2024-06-02 13:05:46 · 1933 阅读 · 8 评论 -
【LLM多模态】多模态LLM在图表处理的应用
在真实场景下,我们进行测试,多模态大模型在处理显著文本时表现尚可,但在处理细粒度文本时往往效果并不太好,why?具体原因如下:首先,视觉编码器的分辨率对于多模态大模型的性能影响较大,由于视觉信息往往包含大量的细节和复杂性,因此需要高分辨率的编码器来捕捉这些细节。但是,高分辨率编码器的计算成本也相应较高,这会限制模型的训练速度和效率。其次,现有的模型主要依赖于大规模的预训练数据集进行训练,而这些数据集往往只包含一些大规模常规或者合成的图像和文本,比如论文arxiv。因此,这些模型可能无法很好地处原创 2024-05-26 17:32:24 · 858 阅读 · 0 评论 -
【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model
新加坡-南洋理工大学发的paper,2023年12月我们还是从十大问题分析这篇论文,但由于是综述,可能没有实验环节详细的部分。# 1. 论文试图解决什么问题- 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述,Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力- 文章介绍传统CV局限性(需要针对不同任务训练不同模型,缺乏交互能力),如下图左侧。- 文章从三方面介绍Visual Instruction Tuning的发展过程:单语言原创 2024-05-26 14:36:31 · 917 阅读 · 0 评论 -
【LLM多模态】LLava模型架构和训练过程 | CLIP模型
CLIP使用了对比学习的方法,即通过正样本(匹配的图像-文本对)和负样本(不匹配的图像-文本对)来训练模型。在训练过程中,模型会尝试最大化正样本对的相似度(比如通过计算余弦相似度),同时最小化负样本对的相似度。CLIP模型在zero-shot学习中表现强大,可以直接用于zero-shot推理,比如将猫的图片emb后,将猪狗猫等类的文本描述也分别emb,计算图片和类别emb之间的相似度,从而进行分类。CLIP-ViT-L/14模型的14表示每个patch的分辨率为14X14,比如在224x224像素的图像原创 2024-05-23 23:17:11 · 10918 阅读 · 4 评论 -
【LLM多模态】多模态LLM的EMT灾难性遗忘评估框架
# note- 当前很多MLLM多模态大模型,用于视觉问答-聊天机器人,很少评估图片分类能力。在领域SFT数据微调后,EMT框架是评估微调后模型在几个分类数据集上效果,来评估是否出现灾难性遗忘- 实验现象:多数微调后模型的效果,比基础视觉编码器CLIP分数更低。评估的模型:用EMT来评估四个模型:LLaVA、Otter、LENS和InstructBLIP。- 微调实验结论:Lora微调比线性微调(微调线性适配器adapter)导致更多遗忘原创 2024-05-20 22:45:51 · 664 阅读 · 0 评论 -
【LLM多模态】MiniGPT4模型架构和训练流程
- 图生文应用场景:比如电商领域根据产品图像生成产品描述、娱乐领域中根据电影海报生成电影介绍等- MiniGPT-4将预训练的大语言模型和视觉编码器参数同时冻结,只需要单独训练线性投影层,使视觉特征和语言模型对齐。- MiniGPT4的视觉编码器:使用了与BLIP-2相同的预训练视觉语言模型,该模型由2个部分组成: - 视觉编码器ViT(vision transformer):提取图像中的基本视觉特征。miniGPT-4使用了EVA-CLIP中的ViT-G/14进行实现(初始化该模块的代码如下) -原创 2024-05-02 09:14:45 · 1446 阅读 · 0 评论 -
【LLM多模态】Qwen-VL模型架构和训练流程
Qwen-VL模型的整体网络架构包括以下三个组件:大型语言模型(Large Language Model):- 作用:作为Qwen-VL模型的基础组件,这个部分采用了一个大型语言模型,其初始权重来自于预训练的Qwen-7B模型。- 来源:Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器(Visual Encoder):- 作用:视觉编码器采用了Vision Transformer(ViT)架构,用于处理输入图像并生成一组图像特征。在训练和推理过程中,将输入图像调原创 2024-04-25 22:39:54 · 5304 阅读 · 2 评论 -
【LLM多模态】CogVLM图生文模型架构和训练流程
Cogvlm模型共包含四个基本组件:ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块。- ViT编码器:在 CogVLM-17B 中,采用预训练的 EVA2-CLIP-E。也就是上图将图片进入vit encoder编码。在CogVLM-17B中,移除了ViT编码器的最后一层,因为该层专注于整合[CLS]特征以用于对比学习。- MLP 适配器:MLP 适配器是一个两层的 MLP(SwiGLU),用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。注:所有的图像特原创 2024-03-24 16:29:49 · 5152 阅读 · 2 评论 -
【LLM】2023年十大高影响力AI论文
Pythia — 大模型该如何训练?《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》Llama 2 — 开源模型之王《Llama 2: Open Foundation and Fine-Tuned Chat Models》QLoRA — 高效微调《QLoRA: Efficient Finetuning of Quantized LLMs》BloombergGPT — 垂直领域大原创 2024-01-14 23:36:31 · 1208 阅读 · 0 评论 -
【LLM】LLama2模型(RMSNorm、SwiGLU、RoPE位置编码)
预训练语言模型除了自回归(Autoregressive)模型GPT,还有自编码模型(Autoencoding)BERT[1]、编-解码(Encoder-Decoder)模型BART[67],以及融合上述三种方法的自回归填空(Autoregressive Blank Infilling)模型GLM(General Language Model)[68]。ChatGPT的出现,使得目前几乎所有大语言模型神经网络结构趋同,采用自回归模型,基础架构与GPT-2相同,但在归一化函数、激活函数及位置编码等细节方面有所原创 2024-03-16 22:18:56 · 2151 阅读 · 1 评论 -
【LLM加速】注意力优化(基于位置/内容的稀疏注意力 | flashattention)
note(1)近似注意力:Routing Transformer采用K-means 聚类方法,针对Query和Key进行聚类,类中心向量集合为 其中k 是类中心的个数。每个Query 只与其处在相同簇 (Cluster) 下的Key 进行交互。Reformer 则采用局部敏感哈希 (Local-Sensitive Hashing,LSH) 的方法为每个Query 选择Key-Value 对。其主要思想是使用LSH 函数对原创 2024-03-16 17:15:49 · 1347 阅读 · 0 评论 -
【他山之石】BlueLM蓝心大模型的落地
# note- 预训练:我们采用了混合精度训练以及梯度缩放策略,因为这可以减少训练周期,训练周期较少会节省模型训练所需的时间和资源。选择回放训练能够让模型定向学会一类知识信息。Loss 预测确保在训练过程前对损失进行估计,以保证训练过程中的损失符合我们的预期,最终收敛较好的结果。- SFT微调:采用了“target only loss”方法,并通过聚类分析对指令进行了适应性处理,以更好地确保模型的均衡性。- RLHF对齐:人类价值对齐阶段,我们采用了离线采样策略和双重奖励模型等策略,会在安全性上明显提原创 2024-03-14 00:29:44 · 1251 阅读 · 0 评论 -
【LLM】Advanced rag techniques: an illustrated overview
RAG中的智能体(Agents in RAG)OpenAI 助手基本上整合了开源 LLM 周边工具——聊天记录、知识存储、文档上传界面。最重要的能力还是function call。在 LlamaIndex 中,有一个 OpenAIAgent 类将这种高级逻辑与 ChatEngine 和 QueryEngine 类结合在一起,提供基于知识和上下文感知的聊天,以及在一个对话轮次中调用多个 OpenAI 函数的能力,这真正实现了智能代理行为。【栗子】多文档智能体在每个文档上初始化一个Agent(Open原创 2024-03-10 18:04:01 · 1346 阅读 · 0 评论 -
【RAG】Chain-of-Verification Reduces Hallucination in LLM
相关工作大多数减少幻觉的方法大致可分为三类:训练时校正、生成时校正和使用工具。在训练时校正方法中:尝试通过训练或以其他方式调整模型权重以降低幻觉生成的概率来改进编码器-解码器或仅解码器语言模型的原始从左到右生成。这包括使用强化学习(Roit et al., 2023;Wu et al., 2023)、对比学习(Chern et al., 2023b;Sun et al., 2023b)和其他方法(Li et al., 2023)。在生成时校正中:一个共同的主题是在基础 LLM 的“之上”做出推理决策原创 2024-03-10 16:37:07 · 1294 阅读 · 0 评论 -
【多模态LLM】(task1)Sora相关技术路径
一、Sora是什么?Sora是text-to-video模型 (可能是世界模型),OpenAl的研究人员选择这个名字,因为它“唤起了无限创造力潜能”,特点是: 创建最多60秒的视频,高度详细的场景,复杂的多相机视角以及富有情感的多角色。Sora官网链接:https://openai.com/sora优点:连续多帧的视频。视频融合。同一场景的多角度/多镜头的生成能力。人和其他场景元素在三维空间中一致移动。支持任意分辨率,宽高比的视频输出。缺点:对物理规律的理解仍然有限。Sora能力总原创 2024-02-29 00:32:42 · 928 阅读 · 0 评论 -
【LLM-RAG】BGE M3-embedding模型(模型篇|混合检索、多阶段训练)
M3-Embedding联合了3种常用的检索方式,对应三种不同的文本相似度计算方法。可以基于这三种检索方式进行多路召回相关文档,然后基于三种相似度得分平均求和对召回结果做进一步重排。多阶段训练过程:在这里插入图片描述第一阶段:第一阶段的自动编码预训练采用的是RetroMAE,在105种语言的网页跟wiki数据上进行,从而获得一个基底模型第二阶段:在第一个数据源的弱监督数据进行预训练,这阶段的损失损失只考虑基于稠密检索的对比学习损失。最后第三阶段会在第二,三个数据源的监督数据进行训练,这阶段原创 2024-02-16 16:01:32 · 7977 阅读 · 0 评论 -
【LLM多模态】Cogview3、DALL-E3、CogVLM、LLava模型
丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,与其他文生图模型相比,丹青模型的差异化优势在于对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成更为准确。VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。之前的多模态模型:通常都是将图像特征直接对齐到文本特征的输入空间去,并且图像特征的编码器通常规模较小,这种情况下图像可以看成是文本的“附庸”,效果自然有限。原创 2024-01-30 22:57:32 · 2537 阅读 · 2 评论 -
【RL】(task5)PPO算法和代码实现
分为三个步骤step1 我做你看:有监督学习,从训练集中挑出一批prompt,人工对prompt写答案。其实就是构造sft数据集进行微调。step2 你做我看:奖励模型训练,这次不人工写答案了,而是让GPT或其他大模型给出几个候选答案,人工对其质量排序,Reward model学习一个打分器;这个让机器学习人类偏好的过程就是【对齐】,但可能会导致胡说八道,可以通过KL Divergence等方法解决。instructGPT中奖励模型的损失函数如下,其中 rθ(x,y) 是奖励模型对提示x和完成y的标量原创 2024-01-30 00:19:21 · 1006 阅读 · 0 评论 -
【LLM-agent】function call功能、AgentTuning微调
function call本质:准确识别用户的语义,将其转为结构化的指令,其中通过LLM理解指令和上下文判断需要调用哪个函数、抽取出input中函数所需的参数。是用户和界面交互方式产生质变的一个trick。所以为了提高模型准确识别和调用函数的能力,如agenttuning就是利用多个agent任务交互轨迹,对LLM进行sft微调.gpt中的function call可以让开发者在调用 GPT-4 和 GPT-3.5-turbo 模型时,描述函数并让模型智能地输出一个包含调用这些函数所需参数的 JSON原创 2024-01-21 14:46:16 · 4487 阅读 · 4 评论 -
【LLM-RAG】知识库问答 | 检索 | embedding
RAG流程(写作论文中的background:公式设定、emb、召回内容、召回基准)(工作中的思路《A Survey on Retrieval-Augmented Text Generation》该工作旨在对检索增强文本生成进行研究。主要核心的点如下:1、Retrieval Source知识来源源训练语料:有标注的训练数据直接作为外部知识;外部数据:支持提供训练数据之外的外部知识作为检索来源,比如于任务相关的领域数据,实现模型的快速适应;无监督数据:前两种知识源都需要一定的人工标注来完善“检索依据-原创 2024-01-01 12:12:32 · 4363 阅读 · 4 评论 -
【LLM+RS】LLM在推荐系统的实践应用(华为诺亚)
noteLLM用于推荐主要还是解决推荐系统加入open domain 的知识。可以基于具体推荐场景数据做SFT。学习华为诺亚-技术分享-LLM在推荐系统的实践应用。文章目录note一、背景和问题二、推荐系统中哪里使用LLM1. 特征工程2. 特征编码3. 打分排序三、推荐系统中如何使用LLM四、挑战和展望Reference一、背景和问题传统的推荐模型网络参数效果较小(不包括embedding参数),训练和推理的时间、空间开销较小,也能充分利用用户-物品的协同信号。但是它的缺陷是原创 2024-01-01 11:43:41 · 1561 阅读 · 1 评论 -
【LLM】大模型之RLHF和替代方法(DPO、RAILF、ReST等)
SFT使用交叉熵损失函数,目标是调整参数使模型输出与标准答案一致,不能从整体把控output质量,RLHF(分为奖励模型训练、近端策略优化两个步骤)则是将output作为一个整体考虑,优化目标是使模型生成高质量回复。启发1:像可以用6b、66b依次得到差一点、好一点的target构造排序数据集,进行DPO直接偏好学习或者其他RLHF替代方法(RAILF、ReST等),比直接RLHF更方便训练启发2:为了减少幻觉(如拒绝回答),可以构造排序数据集(如good response为拒绝话术,bad respo原创 2023-12-11 22:36:10 · 6925 阅读 · 1 评论 -
【LLM】基于LLM的agent应用(上)
ote在未来,Agent 还会具备更多的可扩展的空间。就 Observation 而言,Agent 可以从通过文本输入来观察来理解世界到听觉和视觉的集成;就 Action 而言,Agent 在具身智能的应用场景下,对各种器械进行驱动和操作。Agent 是以核心智能模型来驱动的,一个可以具备能力从思考开始,最终做到完整输出的智能性结构。Agent 的发展很符合第一性原理,从最先的 Prompt,后面有人在写完的 Prompt 后面加通用的规划器。文章目录note零、相关概念介绍一、人类与AI协原创 2023-11-19 02:01:53 · 2207 阅读 · 0 评论 -
【tips】huggingface下载模型权重的方法
方法1:直接在Huggingface上下载,但是要fanqiang,可以git clone或者在代码中:```pythonfrom huggingface_hub import snapshot_download# snapshot_download(repo_id="decapoda-research/llama-7b-hf")snapshot_download(repo_id="THUDM/chatglm3-6b")```方法2:使用modelscope:```pythonpip ins原创 2023-10-29 15:30:51 · 2961 阅读 · 1 评论 -
【LLM】大模型幻觉问题的原因和缓解方法
一、幻觉定义备注(下面提及的两个名词):Faithfulness:是否遵循input content;Factualness:是否符合世界知识;传统nlp任务重,幻觉大多数是faithfulness,比如Intrinsic Hallucination(冲突),摘要内容和document内容有冲突;再比如Extrinsic Hallucination(无中生有),生成内容中包含input要求的其他杂七杂八虚假信息;但LLM应该考虑的幻觉Factualness,因为数据源是Open-doman的世界知原创 2023-10-03 15:42:26 · 4555 阅读 · 3 评论