自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(254)
  • 收藏
  • 关注

原创 学习微调大语言模型 LLM 时的碎碎念

要完全解决幻觉问题,就要让模型的推理有足够的上下文,而不是凭空编造。这一点需要从训练时就要做到。就是说,例如 role play 的微调,若角色的回复包含了某种状态(天气如何、吃没吃饭等),这些状态不应该是凭空出现的,而是已经出现在上文。我的设想是,模型应当会主动索求状态的说明文字,若没有,也应该主动写一段说明文字再进行回复。即使这段主动写出的说明文字出现幻觉,也会可控得多。记忆压缩的问题算解决了的话,接下来就是最令人头疼的问题:检索记忆。

2024-07-22 10:16:27 124

原创 实战微软新一代RAG:GraphRAG

本月初,微软发布最强 RAG知识库,开源方案 GraphRAG,项目上线即爆火,现在星标量已经达到 12.1 k。

2024-07-22 10:13:49 291

原创 最优化大模型效果之 RAG(二):索引的优化策略

当用户进行提问时,RAG 系统首先会根据问题从预先构建好的数据库检索相关的文档,并返回给大模型进行生成。在这个过程中,我们一共做了三件事儿,分别是索引、检索和生成。为了获得更好的效果,需要对这三个环节进行针对性的优化,从而提高 RAG 系统的性能。

2024-07-21 08:15:00 620

原创 【LLM大模型】最优化大模型效果之 RAG(一):Naive RAG

大语言模型在众多应用领域实现了突破性的进步,显著提升了各种任务的完成度。然而,其庞大的规模也带来了高昂的计算成本。这些模型往往包含数十亿甚至上千亿参数,需要巨大的计算资源来运行。特别是,当需要为特定的下游任务定制模型时,尤其是在计算能力有限的硬件平台上,这一挑战尤为突出。为了提升 LLM 在未见用户数据集和任务上的性能,。

2024-07-20 07:45:00 1235

原创 RAG 2.0架构详解:构建端到端检索增强生成系统

RAG(检索增强生成)旨在通过提供额外上下文帮助大型语言模型(LLM)生成更精准的回答。

2024-07-19 15:11:58 371

原创 RAG-LLM大模型外挂学习(附学习文档)

RAG 是一种结合信息检索和文本生成的范式,用于提升大语言模型的性能,还能通过预处理查询、理解意图、处理对话历史和结果排序来优化交互。要使用RAG,需理解其技术原理,包括信息检索、增强和生成步骤,并考虑如何适应各种应用场景。

2024-07-19 15:10:50 228

原创 ai大模型:最清晰解读提示工程(Prompt Engineering)

提示工程(Prompt Engineering),也称为上下文提示,是一种通过不更新模型的权重/参数来引导LLM行为朝着特定结果的方法。这是与AI有效交流所需结果的过程。

2024-07-19 15:05:39 294

原创 LLM大模型系列:提示词管理

既然大模型应用的编程范式是面向提示词的编程,需要建立一个全面且结构化的提示词库, 对提示词进行持续优化也是必不可少的,那么如何在大模型应用中更好的管理提示词呢?

2024-07-19 15:02:31 968

原创 你们大模型面试是真不准备啊?背完这些,LLM大语言模型面试就稳了 (附面试文档)

你们大模型面试是真不准备啊?背完这些,LLM大语言模型面试就稳了 (附面试文档)

2024-07-19 15:01:10 270

原创 LLM大模型:Prompt 提示词工程

Prompt(提示词)是一个 指令 、问题或者语句,能被用来引导或指示一个语言模型生成特定的文本输出。Prompt是用户与语言模型交互的起始点,它告诉模型用户的意图,并且期望模型能以有意义且相关的方式回应。

2024-07-19 14:48:01 687

原创 【LLM大模型】介绍一个大语言模型的微调框架Swift

微调(Fine-tuning)是指在已经预训练好的大语言模型基础上,使用特定领域或任务的数据集进行进一步的训练,使模型能够更好地适应并完成该领域或任务的具体要求。预训练的大语言模型通常在大规模通用语料库上进行训练,学习了语言的普遍规律和特征,但对于特定领域或任务的专业知识和特定需求,往往需要通过微调来优化。

2024-07-18 11:32:06 560

原创 LLaMA-Factory:大语言模型微调框架(大模型)

LLaMA-Factory 是一个国内北航开源的低代码大模型训练框架,专为大型语言模型(LLMs)的微调而设计

2024-07-18 11:30:29 792

原创 【ai大模型】基于LLM大模型Agent的适用范围和困境

本文提到大模型通常的工作方式,即通过提示词进行问答,并指出了两个主要问题:历史对话信息的管理和令牌数量的限制。

2024-07-18 11:26:37 531

原创 LLM大语言模型超参数入门调参手册

在人工智能的广阔天地中,大语言模型(LLM)正以其强大的能力,不断刷新我们对机器理解语言的认知。然而,要使这些模型在特定应用场景下发挥最大效能,关键在于如何巧妙地调整其超参数。

2024-07-17 10:31:11 705

原创 LLM大模型中常用的注意力机制GQA详解以及Pytorch代码实现

分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

2024-07-17 10:30:06 631

原创 LLM大模型:初识LangChain的快速入门指南(附入门文档)

LangServe可以帮助开发人员将LangChain应用程序部署为REST API。使用LangChain时不是必定使用LangServe。安装langservepython复制代码。

2024-07-17 10:29:07 816

原创 【LLM】只用 5 步,每个人都能写出精准的 Prompt

虽然 AI 有可能胡说八道,而且,可以说是很多场景下,都会输出一些毫无关联的内容,但是通过精心设计Prompt,可以大大提高输出内容的准确性。而且,或许你们已经听说过了,或者说正在做类似的事情,那就是现在 AI 衍生出了一个职业,叫做 Prompt Engineer。

2024-07-16 15:18:31 670

原创 LLM大模型的幻觉 (Hallucination) 因何而来?如何解决幻觉问题?

为什么 LLM 会出现幻觉?如何缓解这种情况?使用的数据集对此现象的影响几何?本文将为您一一解答。生成式大语言模型(LLM)可以针对各种用户的 prompt 生成高度流畅的回复。然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。“我们正在努力解决幻觉问题……这将需要一年半到两年的时间。图1 这个 ChatGPT 的回答是否是幻觉?当开发人员尝试构建具有大模型的系统时,这些限制会带来一些挑战,因为整个系统必须满足质量、安全和落地性的要求。

2024-07-16 15:17:04 224

原创 【大模型入门】LLM-AI大模型介绍

大语言模型 (Large Language Model) 是一种人工智能模型, 它们通常包含数千亿甚至更多的参数,并在大规模数据集上进行训练。大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等。

2024-07-16 15:04:41 785

原创 all in LLM大模型,这本书必看:大语言模型 基础与前沿(附获取方法)

哈喽大家好!很久都没有更新大模型这块的书了,今天给大家说一下这本:《大语言模型:基础与前沿》,本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。

2024-07-16 11:44:36 1371

原创 【LLM大模型】Prompt 工程师压箱底绝活——Prompt 的基本组成部分、格式化输出与应用构建

目前,大模型输出往往包含许多冗余信息。本文中,基于文心一言,我们给出了一种包含指令,输入数据,背景信息和输出提示的提示词结构,让大模型能够真正直击应用开发者的需求,严格执行开发者的指令,为大模型的原生应用奠定了基础。

2024-07-15 09:57:52 670

原创 LLM大模型应用之路:从提示词到通用人工智能(AGI)

大模型在人工智能领域的应用正迅速扩展,从最初的提示词(Prompt)工程到追求通用人工智能(AGI)的宏伟目标,这一旅程充满了挑战与创新。本文将探索大模型在实际应用中的进展,以及它们如何为实现AGI铺平道路。

2024-07-15 09:57:07 665

原创 【ai大模型】中国人工智能大模型技术白皮书,从0入门大模型,附文档+LLM实战教程

中国人工智能学会发布了《中国人工智能大模型技术白皮书》,系统梳理了大模型技术演进,深入探讨关键技术要素,并剖析当前挑战及未来展望。 我为大家做了简要总结,并附上文档分享给大家。

2024-07-15 09:52:57 862

原创 2024最新LLM大模型入门指南

随着 ChatGPT 的到来,大模型[1] (Large Language Model,简称 LLM)成了新时代的 buzzword,各种 GPT 产品百花齐放。

2024-07-13 09:37:58 707

原创 【LLM大模型】Langchain:Prompt在手,天下我有

prompts是大语言模型的输入,他是基于大语言模型应用的利器。没有差的大语言模型,只有差的prompts。写好prompts才能发挥大语言模型300%的功力。

2024-07-13 09:37:01 766

原创 2024年大语言模型的微调, fine-tuning没你想的难(LLM大模型)

一个LLM的生命周期包含多个步骤,下面将讨论这个周期中最活跃、最密集的部分之一 -- fine-tuning(微调)过程。

2024-07-13 09:35:37 1006

原创 【LLM大模型】ai产品经理已经开始进入“抢人”模式了!

随着大模型在国内这片土壤生根发芽,企业对相关人才的争夺也愈发激烈,在招聘软件上我们不难看到,不少企业甚至开出高年薪以抢夺算法、深度学习等高级技术人才。

2024-07-12 10:47:32 845

原创 【LLM大模型】大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼

继斯坦福羊驼(Stanford Alpaca)之后,UC伯克利、CMU、斯坦福等机构的学者,联手发布了最新开源大模型骆马(Vicuna),包含7B和13B参数。好了,从0到1复现了Vicuna的训练及推理。总的来说,在超过 90%的问题中,GPT-4 更喜欢 Vicuna 而非其他SOTA开源模型(LLaMA 和 Alpaca)的答案,而且在性能上与专有模型(ChatGPT、Bard)等相差不大。在 45%的问题中,GPT-4 都将 Vicuna 的回答评为优于或等于 ChatGPT 的回答。

2024-07-12 10:46:23 992

原创 【LLM大模型】AI小白使用Macbook Pro安装llama3与langchain初体验

上次在Macbook Pro上安装了Stable Diffusion,体验了本地所心所欲地生成各种心仪的图片,完全没有任何限制的惬意。今天想使用Macbook Pro安装一个本地大语言模型体验一下,刚好在2024年4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3,并开放了80亿(8b)和700亿(70b)两个小参数版本,据说能力显著提升。遂开干。

2024-07-12 10:45:10 882

原创 【LLM大模型】LangChain结合LLM做私有化文档搜索

通过 LangChain可以轻松实现私有化文档搜索,充分利用LLM的能力来处理和检索文档信息。按照文中的步骤,你也可以轻松实现。好的问答系统离不开优秀的LLM,根据我的个人经验,OpenAI的大模型能力排名是Top1的。但是使用OpenAI不方便,不但需要梯子而且还不稳定。一款好的LLM摆在面前,却用不了,着实头疼。有没有方便稳定的方式呢?当然有啦,下面我来推荐一款AI自助平台,不但有问答机器人、文生图机器人、文生视频机器人,还有常见的LLM API,稳定又还便宜。

2024-07-10 09:46:48 677

原创 【LLM大模型】拆解LangChain的大模型记忆方案

我们聊过如何使用LangChain给LLM(大模型)装上记忆,里面提到对话链`ConversationChain`和`MessagesPlaceholder`,可以简化安装记忆的流程。下文来拆解基于LangChain的大模型记忆方案。

2024-07-10 09:44:39 701

原创 【LLM大模型】LangChain快速入门指南

LangChain 是一个开源的自然语言处理(NLP)框架,它旨在帮助开发者快速构建和部署基于语言模型的应用程序。以下是一份针对初学者的快速入门指南,将帮助你了解LangChain的基本概念和如何开始使用它。

2024-07-10 09:41:41 973

原创 【LLM大模型】RAG流程优化(微调)的4个基本策略

在本文中,我们将介绍使用私有数据优化检索增强生成(RAG)的四种策略,可以提升生成任务的质量和准确性。通过使用一些优化策略,可以有效提升检索增强生成系统的性能和输出质量,使其在实际应用中能够更好地满足需求。

2024-07-09 10:15:22 429

原创 【LLM大模型】开发基于云的RAG应用,使用开源 LLM

检索增强生成 (RAG)通常用于开发定制的 AI 应用程序,包括 聊天机器人、推荐系统和其他个性化工具。该系统利用向量数据库和 大型语言模型 (LLM)的优势来提供高质量的结果。

2024-07-09 10:12:36 419

原创 白嫖一个属于你自己的LLM私有大模型

最近国内的大模型可谓是遍地开花,你瞧瞧:这么火,我也想搞一个试试,于是就有了这篇文章!对,你没看错,就是白嫖。毕竟人家清华都开源了,哈哈哈hoho~~最重要的一点,人家遵循Apache-2.0协议。下面开干吧!

2024-07-08 10:18:58 849

原创 【LLM大模型】中国人工智能大模型技术白皮书,从0入门大模型,附文档+LLM实战教程

近期,中国人工智能学会发布了《中国人工智能大模型技术白皮书》,系统梳理了大模型技术演进,深入探讨关键技术要素,并剖析当前挑战及未来展望。 我为大家做了简要总结,并附上文档分享给大家。

2024-07-08 10:04:33 1398

原创 LangChain4j系列:带你入门LangChain4j框架

本文所有示例均在 langchain4j 0.31.0 版本之上进行,langchain4j也是在快速发展的阶段。

2024-07-05 10:18:04 1080

原创 【LLM大模型】Spring AI 提示词模版源码分析及简单的使用

本篇文章主要对Spring AI 提示词的实现源码进行剖析,并提供使用案例。对于如何写好提示词,提示的技术框架等,后续会出专题进行详尽的讨论。

2024-07-05 10:12:45 718

原创 【LLM大模型】中国人工智能大模型技术白皮书,从0入门大模型,附文档+LLM实战教程

中国人工智能学会发布了《中国人工智能大模型技术白皮书》,系统梳理了大模型技术演进,深入探讨关键技术要素,并剖析当前挑战及未来展望。 我为大家做了简要总结,并附上文档分享给大家。

2024-07-04 10:31:36 600

原创 【LLM大模型】想要转行AI产品经理,这些基本的认知必须知道

与互联网传统的产品经理不同,AI产品经理的能力要求、门槛等相对会更高。本文作者梳理了AI产品经理的工作流程与现有产品经理的区别,可以帮助大家更好理解这个岗位。以下是自己在学习AI产品经理过程中的简单总结,欢迎交流。

2024-07-04 09:41:56 360

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除