自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(136)
  • 收藏
  • 关注

原创 必学大模型!决战Llama 3.1!史上最强的开源大杀器。。。

Llama 3.1是Meta最新推出的开源大语言模型,有三种规格:8B(80亿)、70B(700亿)和405B(4050)亿参数,支持八种语言,具备128K扩展上下文长度。它提供卓越的通用知识、数学计算、多语言翻译和工具使用能力,开放下载并允许开发者定制和微调。

2024-08-28 16:40:42 610

原创 轻松掌握 Llama 3.1:轻松本地部署与远程使用的全攻略

Llama 3.1 是 Meta(Facebook 的母公司)发布的一系列最先进的开源大语言模型。Llama 3.1 系列包括 8B(80 亿参数)、70B(700 亿参数)和 405B(4050 亿参数)模型。其中,405B 是 Meta 迄今为止最大的模型。

2024-08-28 16:35:41 822

原创 LLM大型语言模型代理的安全与隐私综述

受大型语言模型(LLM)快速发展的启发,LLM代理已发展到能够执行复杂任务的阶段。LLM代理现在广泛应用于各个领域,处理大量数据以与人类互动并执行任务。LLM代理的广泛应用展示了其显著的商业价值;然而,这也暴露了其安全和隐私漏洞。

2024-08-26 16:20:43 841

原创 多模态大模型有何进展?西工大等最新《多模态大型语言模型》全面综述

在数据爆炸性增长和技术快速发展的时代,多模态大型语言模型(MLLMs)处于人工智能(AI)系统的前沿。MLLMs旨在无缝集成包括文本、图像、视频、音频和生理序列在内的多种数据类型,解决远远超出单一模态系统能力范围的复杂现实应用问题。

2024-08-26 16:18:43 658

原创 【AI大模型】上交2024最新-《动手学大模型》实战教程及ppt分享!

今天分享一个上海交大的免费的大模型课程,有相关教程文档和Slides,目前是2.2K星标,还是挺火的!

2024-08-23 17:28:30 547

原创 大模型学习方法之——大模型技术学习路线

大模型技术爆火至今已经有两年的时间了,而且大模型技术的发展潜力也不言而喻。因此,很多人打算学习大模型,但又不知道该怎么入手,因此今天就来了解一下大模型的学习路线。‍‍

2024-08-23 17:22:57 917

原创 OpenCV图像金字塔

默认情况下,程序会调用文件夹中的图像默认情况下,程序会调用文件夹中的图像。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。因此,第一阶段只推荐4本最必要的书(而且这些书到了第二、三阶段也能继续用),入门以后,在后续学习中再“哪里不会补哪里”即可。– 这个课程将会教授你实现人工智能的基本方法,包括:概率推算,计划和搜索,本地化,跟踪和控制,全部都是围绕有关机器人设计。如果用户按 **ESC,**我们的程序将退出。

2024-02-23 17:15:00 1553

原创 OpenCV图像处理

*例如,在二进制图像中,如果输入图像中属于内核范围的任何像素设置为值 1,则输出图像的相应像素也将设置为 1。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。(也称为内核)处理图像。通过选择内核的大小和形状,您可以构建对输入图像的特定形状敏感的形态操作。正如我们在理论中指定的那样,为了提取我们想要的对象,我们需要创建相应的结构元素。如上所述,一般来说,在任何形态学操作中,用于探测输入图像的结构元素是最重要的部分。

2024-02-23 09:15:00 1129

原创 本地知识库+语言大模型=知域问答

本地知识库通常是指存储在本地计算机或服务器上的数据库或数据集,用于提供本地环境下的知识和信息。langchain是一个开发基于语言模型应用程序开发框架,链接面向用户程序和LLM之间的中间层。利用LangChain可以轻松管理和语言模型的交互,将多个组件链接在一起,比如各种LLM模型,提示模板,索引,代理等等。

2024-02-22 17:15:00 1795 2

原创 LLM2Json: 让 ERNIE Bot 稳定输出结构化生成结果

当下,各种 LLM(Large Language Model)模型井喷式发展,其威力和能力已经不言而喻。但是,当开发者基于LLM做下游应用时,我们需要将LLM生成的结果与其他程序做数据交互,但大多数时候LLM直接生成的结果无论是格式还是内容上都存在太多不确定性因素,导致开发者需要对输出结果做大量的正则化处理才能被下游程序使用,甚至还经常出现键值对报错的问题。为此,我们做了这款名为的工具,帮助开发者构建高质量的输出Prompts和得到更好的JSON格式输出结果。

2024-02-22 09:15:00 1054

原创 LLM Agent之RAG的反思:放弃了压缩还是智能么?

另一篇论文CRITIC提出的verify-then-correct和RARR非常相似,只不过在不同的任务上尝试使用了不同的外部工具进行校验。在开放问答上使用搜索,在代码问题就用代码解释器,并未涉及动态的工具选择,只是在不同数据集上固定选用不同的工具,这里就不展开说啦,感兴趣的盆友自己去看论文吧~

2024-02-21 17:15:00 989

原创 LLM Agent之再谈RAG的召回信息密度和质量

接上文的召回多样性优化,多路索引的召回方案可以提供更多的潜在候选内容。但候选越多,如何对这些内容进行筛选和排序就变得更加重要。这一章我们唠唠召回的信息密度和质量。同样参考,这一章对应环节,考虑排序中粗排和精排的区分主要是针对低延时的工程优化,这里不再进一步区分,统一算作排序模块。让我们先对比下重排和排序模块在经典框架和RAG中的异同下面我们分别说两这两个模块有哪些实现方案。

2024-02-21 09:15:00 1803

原创 LLM Agent之再谈RAG的召回信息密度和质量

话接上文的召回多样性优化,多路索引的召回方案可以提供更多的潜在候选内容。但候选越多,如何对这些内容进行筛选和排序就变得更加重要。这一章我们唠唠召回的信息密度和质量。同样参考,这一章对应环节,考虑排序中粗排和精排的区分主要是针对低延时的工程优化,这里不再进一步区分,统一算作排序模块。让我们先对比下重排和排序模块在经典框架和RAG中的异同下面我们分别说两这两个模块有哪些实现方案。

2024-02-20 17:15:00 892

原创 LLM Agent之再谈RAG的召回多样性优化

在微软提出的rewrite-retrieve-read框架中,使用大模型作为rewriter,Bing搜索作为Retriever,chatgpt作为Reader,在QA任务上,尝试使用PPO微调改写模型,Reward模型的目标是不同改写query召回后推理内容和真实答案的Exact Match和F1。在深入学习的同时,也可以探索自己感兴趣的方向,为求职面试打好基础。传统搜索Query的扩展,有基于用户搜索日志挖掘的相似Query,有基于相同召回文档关联的相似Query,也有基于SMT的Query改写方案。

2024-02-20 09:15:00 1934

原创 LLM Agent之数据分析领域的应用

举个数据洞察的栗子,最早在 UG 用户增长部门工作时,每次 APP 活跃用户下降了,数据分析组收到的任务就是赶紧去分析活跃用户数据,看看到底用户为啥流失了,是被竞品抢走了,是最近上了什么新功能用户不喜欢,还是之前活动拉来的用户质量不高留存较少,基于这些数据洞察,好制定下一步挽留流式用户,激活沉默用户的具体方案。例如把活跃用户分成男女,老幼,不同城市,不同机型,渠道来源,不同阅读偏好等等维度,观察不同 subgroup 的用户他们的活跃是否发生下降,下降比例是否相同,是否有某个维度的用户组流失最显著。

2024-02-19 17:15:00 939

原创 LLM Agent之只有智能体的世界

产品涉及环节的具体指令如下,需求分析阶段的任务指令使用了few-shot,给出不同的产品形态例如图片,文档,应用等实现方式,并明确了对话的两个智能体的讨论主题,以及终止讨论的条件,即。而在这篇论文self-Reflection其实更像是会议总结模块,当多轮对话完成,但是并未出现对话停止符号,这时可以触发总结模块,把前面的多轮对话作为上文,来总结对话得到的结论,用于后续步骤的进行,如下。当智能体A,出现在当前智能体可以感知的环境范围内时,通过以上的环境感知模块,智能体的记忆流中会出现智能体A的当前行为。

2024-02-19 09:15:00 1931

原创 LLM对齐方案再升级

下图是一个指令改写的示例。深度改写把指令改写的更加复杂,包括加入限制条件,指令复杂化,指令具象化,增加推理步骤,输入复杂化等5种类型的指令。以下是加入限制条件的prompt指令,以下指令控制每次改写增加的字数,以及改写的程度,每次只增加部分难度,这样通过多轮的改写,就可以得到不同难度,多样性更高的指令集。同时论文进行了消融实验,对训练数据的数量和质量的影响做了进一步的测试,对比了未使用Self-Curation过滤的数据集,4轮过滤的数据集和5轮过滤的数据集,不同的样本量带来的效果差异,主要结论有两个。

2024-02-18 17:15:00 944

原创 LLM对齐经验之数据越少越好?

论文还进行了消融实验,对比了不同的筛选阈值得到的不同训练样本量的影响,3k/6k/9k中9K的样本量级,模型效果最好,但超过后模型效果会有下降。论文在以下4个测试集上进行评估,使用GPT-4给原始Alpaca和飞天羊驼进行偏好打分,胜率如下,在不同量级的训练样本上,飞天羊驼以80%+的胜率超越Alpaca,当训练样本在9K左右的时候,胜率最高~当然论文选择的样本数本身并无非常大的参考意义,因为这个选择的基座模型,模型大小,数据本身的多样性都相关,所以需要具体模型具体分析。

2024-02-18 09:15:00 971

原创 LLM Agent之数据库应用设计(二)

只所以在Spider基准中有85%+执行准确率的SOTA模型,在BIRD里面表现骤降,除了BIRD使用的数据集噪声更多,数据集更大更复杂之外,一个核心原因是现实应用中,只像以上3篇论文那样使用原始表格的schema来描述数据表,是远远不够滴。这时可以开始触类旁通,学习热门技术,加强实践水平。针对每个问题会随机生成多个SQL,然后去数据库进行执行,过滤无法执行的sql,对剩余sql的执行结果进行分组,从答案出现次数最多的分组随机选一个sql作为最终的答案,也就是基于sql执行结果的major vote方案。

2024-02-17 17:15:00 1722

原创 LLM Agent之数据库应用设计(一)

上一章我们主要讲搜索引擎和LLM的应用设计,这一章我们来唠唠大模型和DB数据库之间的交互方案。有很多数据平台已经接入,可以先去玩玩再来看下面的实现方案,推荐本章会提到的前置知识点有Chain-of-thought,Least-to-Most Prompt,Self-Consistency Prompt,建议不熟悉的同学先看下。

2024-02-17 09:15:00 1012

原创 WebGPT与WebGLM

评估方案,论文把webgpt生成的结果,和Eli5数据集的原始结果(Reddit上的高赞答案),以及Demonstration中人工标注的答案进行偏好对比,让标注同学选择更偏好的答案。效果上,175B的微调模型,在64个回答中采样RM打分最高的答案,效果上是可以显著超越人工回答的。其次RL的初始模型,对标以上webgpt的BC模型。

2024-02-16 17:30:00 1724

原创 搜索Agent方案

Retriever负责从网页正文中,抽取和Query相关的内容,也就是一个阅读理解/抽取式摘要问题。这样就不需要依赖搜索API直接提供的snippet摘要,可以针对你的场景来设计抽取的长度,以及是整段抽取,还是抽取多个段落组合。为了降低推理延时,webcpm通过decoder实现了类似span抽取的方案,解码器只解码应当抽取的段落的第一个字和最后一个字。例如Query = 麦田怪圈是什么?

2024-02-16 09:02:54 940

原创 LLM Agent-指令微调方案

Toolformer的创新主要在使用模型的Few-shot理解能力,使用少量的人工标注样本制造大量的自监督样本。这样Tooformer理论上可以支持任意的API工具。但Toolformer有一些局限性工具独立:论文中每个API调用的样本是独立构造的,工具之间没有交互,且同一工具的多次调用之间也是独立,不依赖上文的调用返回。常规解码:没有引入思维链推理,限制了最终效果。

2024-02-11 09:15:00 1637

原创 LLM Agent零微调范式 ReAct & Self Ask

看完了SelfAsk和React的实现,不难发现二者存在一些局限性更适合简单的工具调用:这里的简单是指工具的输入和上文的文本语义比较符合,工具输入比较“自然语言”风格例如搜索。高度结构化和符号化的工具输入,使用Prompt实现,准确率比较有限。更适合少量的工具组合:受限于Prompt上文的长度,不能把几十个工具prompt全塞进去,因此更适合少量的工具组合一般是3~5个以内。

2024-02-11 05:45:00 1679

原创 小模型也能COT

前两章我们分别介绍了COT的多种使用方法以及COT的影响因素。这一章更多面向应用,既现实场景中考虑成本和推理延时,大家还是希望能用6B的模型就不用100B的大模型。但是在中反复提到不论是few-shot还是zero-shot的思维链能力似乎都是100B左右的大模型才有的涌现能力,而在小模型上使用COT甚至会带来准确率的下降。至于为啥小模型无法进行COT,论文[5]通过把小模型回答错误但大模型可以回答正确的问题进行归纳总结,认为小模型的COT能力受到有限的语义理解和数学计算能力的限制。

2024-02-10 17:15:00 1581

原创 Prompting: An Empirical Study of What Matters

个人猜测是核心元素的复述可以帮助模型更好理解指令识别指令中的关键信息,并提高该信息对应的知识召回【这一点我们在下游难度较高的多项选择SFT中也做过验证,我们在多项选择的推理模板的最后加入了题干的复述,效果会有一定提升,进一步把选项的结果完形填空放到题干中,效果会有更进一步的提升】论文正文用的是text-davinci-002,附录里也补充了text-davinci-003的效果,看起来003的结果单调性更好,二者结论是基本一致的,因此这里我们只看下003的消融实验效果,可以得到以下几个核心结论。

2024-02-10 09:15:00 838

原创 思维链COT原理探究

这种替换方式下的实验结果如下,除了体育问题中的随机实体替换,其余symbol的替换对COT的效果影响都非常有限。实体替换(text_diff_entities):把推理中的实体随机替换成和问题中不一样的实体,包括数学问题中的数字,常识问题中的时间,地点和任务。只有pattern的COT效果很差,和直接推理差不多,说明只有patten肯定是不够的,这和上一篇博客提到COT小王子尝试过的只有数学公式的COT效果不好的结论是一致的。论文给出了symbol和pattern的定义,剩下的token全是Text。

2024-02-09 17:15:00 1784

原创 模型复杂推理-思维链COT基础和进阶玩法

在使用大模型进行固定问题回答例如多项选择,数学问题时,我们往往会采用Greedy-Search的方式来进行解码,从而保证模型解码生成固定的结果,不然的话使用随机解码,我采样4次,模型把ABCD都选了一遍,那这题模型到底是答对了还是答错了?self-consistency是在few-shot-cot的基础上,用Ensemble来替换Greedy Search,来提高解码准确率的一种解码策略,论文显示加入self-consistency,可以进一步提升思维链的效果GSM8K (+17.9%)。

2024-02-09 09:15:00 893

原创 无需训练让LLM支持超长输入

考虑ChatGLM本身是二维的Attention矩阵和位置编码,特殊的BOS和GMASK,我重写了PCW,但是在长文本QA问题上表现比较一般,表现在当上文多段文本无明显关系的时候例如多个完全无关的新闻,在进行问答的时候,正确答案中会混杂很多无关的文本变短,以及这个问题当上文片段变多,或者指令问题变多的时候会变得越来越严重,直到开始完全胡说八道。因此每一段输入的文本的注意力矩阵是相互独立的。在解码层,每一步解码,query都会检索注意力最高的Top-k个输入Token,作为编码器部分的信息用于解码器的解码。

2024-02-08 17:15:00 861

原创 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析(二)

粗略看完以上3家超长无比的系列RLHF论文,结合OpenAI对RM模型的一些观点。我们来讨论下文首问题,感悟很玄学!!不一定靠谱!!仅提供一种思路~

2024-02-08 09:15:00 1703

原创 APE+SELF=自动化指令集构建代码实现

这里作者使用了REF[1]里面使用的24个指令任务,每类任务挑选5对样本,使用以上的方案得到最优的指令,再在剩余样本上,和人工指令以及REF[1]论文中使用的方案(没有搜索和打分排序的APE)以下称为greedy,进行效果对比。这里作者基于原始的输入+输出,部分样本只有输出,例如自由生成类的任务,来让大模型预测,原始指令是什么。最初我对这种机器生成指令的方式是不太感冒的,但是在医学术语标准化这个任务上,我对比了APE得到的最优指令,和我人工写的指令,在单测时确实是模型指令,得到正确答案的概率更高。

2024-02-07 09:30:00 973

原创 OpenAI: InstructGPT

一言以蔽之:你们还在刷Benchamrk?我们已经换玩法了!更好的AI才是目标这里把InstructGPT拆成两个部分,本章只说指令微调的部分,也就是训练三部曲中的第一步,论文中叫SFT(Supervised fine-tuning)。从论文的数据构建和评估中,不难发现OpenAI对于什么是一个更好的模型的定义和大家出现了差异,当谷歌,BigScience联盟还在各种不同的标准任务上评估LM模型能力提升时,OpenAI的重点已经变成了更好的AI,也就是能更好帮助人类解决问题的人工智能。简化成3H原则就是。

2024-02-06 17:15:00 831

原创 升级Instruction Tuning

在5个hold-out任务上,更多的数据集并不一定带来效果的提升,并且在部分推理任务上,更多的数据集还会带来spread的上升(模型在不同prompt模板上表现的稳定性下降)每个数据集的prompt数(p):通过每个数据集采样不同数量的prompt进行训练,作者发现随prompt数提升,模型表现的中位数会有显著提升,spread存在不同程度的下降,不过看起来存在边际递减的效应。除了以上存在明显效果提升的任务,在一些任务本身就和指令相似的任务,例如常识推理和指代消歧任务,指令微调并不能带来显著的效果提升。

2024-02-06 09:15:00 892

原创 冻结LM微调Prompt

这一章我们介绍在下游任务微调中固定LM参数,只微调Prompt的相关模型。这类模型的优势很直观就是微调的参数量小,能大幅降低LLM的微调参数量,是轻量级的微调替代品。和前两章微调LM和全部冻结的prompt模板相比,微调Prompt范式最大的区别就是prompt模板都是连续型(Embedding),而非和Token对应的离散型模板。核心在于我们并不关心prompt本身是否是自然语言,只关心prompt作为探针能否引导出预训练模型在下游任务上的特定能力。固定LM微调Prompt的范式有以下几个优点。

2024-02-05 17:15:00 911

原创 冻结Prompt微调LM:LM-BFF

如上图,先把输入填充进prompt模板,再从各个分类中各采样1个样本作为指令样本拼接进输入,为待预测文本补充更丰富的上下文,一起输入模型。LM-BFF是陈丹琦团队在20年底提出的针对few-shot场景,自动搜索模板和触发词的Prompt方案,prompt模板延续了PET的完型填空形式,把人工构建prompt和标签词的构建优化成了自动搜索。如下,固定prompt模板(L),作者用训练集中每个分类(c)的数据,在预训练模型上分别计算该分类下MASK词的概率分布,选择概率之和在Top-k的单词作为候选词。

2024-02-05 09:15:00 930

原创 冻结Prompt微调LM: T5 & PET

这篇paper和上面的PET-TC是同一作者,算是上文的续作,主要优化了Answer词单token设定,支持多个token作为标签词,不过限制性依旧较强是预先设定任务最大的token数,然后使用最大token数作为MASK数量,而非动态的任意数量的MASK填充。具体对比结果这里不细说,本文只关注T5为了公平对比以上差异,提出的Text2Text的通用建模框架:用相同的模型,相同的预训练,相同的损失函数和解码方式,把文本分类,摘要,翻译,QA都转化成了生成任务,而转化的方式就是通过加入前缀prompt。

2024-02-04 17:15:00 772

原创 lora指令微调扣细节

这个表征又是什么含义?LoRA的原理比较简单,原始全量微调其实就是在原始模型参数上通过微调加入增量W=W0+ΔW,那我们可以通过冻结原始参数W00,并且把增量部分通过低秩分解方式进一步降低参数量级ΔW=A∗BTΔ,原始参数的维度是d∗d, 则低秩分解后的参数量级是2∗r∗d2∗,因为这里的r

2024-02-04 09:43:19 1160

原创 LAMA & AutoPrompt

AdvTrigger旨在找到和输入以及模型无关的通用Trigger,把这个Trigger拼接在输入文本的开头或者结尾可以使得模型得到特定的结果,可以是增加模型的误判率,使得模型输出有种族歧视的文本,或者让模型输出相同的错误结果等等。Wikipedia抽取的事实,包括5种关系,论文只保留了出生地,死亡地,出生日期3种关系,因为剩余两种的预测结果为多token,而LAMA的答案模板限制只预测1个token。多语言词之间的常识关系,作者只考虑object为英文单字的16种关系,部分prompt如下。

2024-02-03 17:45:00 780

原创 OpenCV中的矢量化卷积

我们将首先实现一维卷积,然后对其进行矢量化。2-D 矢量化卷积将在各行之间执行 1-D 卷积以产生正确的结果。

2024-02-03 10:15:00 2278

原创 GPT2 & GPT3

和GPT相比,GPT2的创新就是在“LM是无监督多任务”这个观点上,所以GPT2的评测是基于无finetune的zero-shot场景进行的,旨在证明足够优秀的语言模型是可以不经过微调直接用在不同的下游场景中的。如今从Prompt的角度重读,GPT2更像是在探索模型zero-shot能力的时候不小心推开了prompt的大门,从最直观的视角构建了Prompt提示词,也就是类似的任务在常规文本中是以什么形式(关键词)出现的,就以该形式构建文本输入即可~还没看到较严谨的论证,有知道的盆友求答疑解惑。

2024-02-03 09:30:00 863

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除