- 博客(434)
- 收藏
- 关注
原创 世界级AI大佬吴恩达著作:LLM CookBook 汉化版 本教程
🚀本教程面向入门 LLM 的开发者,深入浅出地介绍了对于开发者,如何构造Prompt 并基于 OpenAI 提供的 API 实现包括总结、推断、转换等多种常用功能,是入门 LLM 开发的经典教程;
2024-09-08 12:15:00 903
原创 为啥大模型需要量化?如何量化
量化是一种将较大尺寸的模型(如 LLM 或任何深度学习模型)压缩为较小尺寸的方法。量化主要涉及对模型的权重参数和激活值进行量化。让我们通过一个简单的模型大小计算来验证这个说法。左侧:基础模型大小计算(单位:GB),右侧:量化后的模型大小计算(单位:GB)在上图中,基础模型 Llama 3 8B 的大小为 32 GB。经过 Int8 量化后,大小减少到 8GB(减少了 75%)。使用 Int4 量化后,大小进一步减少到 4GB(减少约 90%)。这使模型大小大幅减少。
2024-09-07 14:30:00 577
原创 打破信息差|纯文科生如何入局AI大模型行业?
信息差|纯文科生如何入局AI大模型行业。做AI大模型有多赚钱?没有技术的纯文科生,转型AI大模型困难吗?👉先说结论:结合自身经历和相关研究,AI大模型在国内外都还处在飞速发展阶段,人才紧缺,想要入局,并不困难。
2024-09-06 11:48:13 1167
原创 大模型长文本处理技术与GLM-4-Plus评测
模型描述上下文GLM-4-Plus高智能旗舰128KGLM-4-0520高智能模型128K超长输入1MGLM-4-AirX极速推理8KGLM-4-Air高性价比128K免费调用128K在 KDD 国际数据挖掘与知识发现大会上,智谱 GLM 团队发布了新一代基座大模型——GLM-4-Plus。作为智谱全自研 GLM 大模型的最新版本,GLM-4-Plus 标志着智谱AI在通用人工智能领域的持续深耕,推进大模型技术的独立自主创新。
2024-09-06 11:41:33 1217
原创 学大模型必看的8本书籍,答应我把这8本书翻烂好嘛?
模型大师们,准备好踏上一段深度学习与模型构建的路了吗?这里有八本经典之作,它们将是你攀登知识高峰的阶梯!从《PyTorch深度学习实战》到《大模型时代》从掌握基础框架到洞悉大模型时代的变革模型大师,准备好了吗?翻烂这八本书,直接嘎嘎冲!!
2024-09-05 11:14:01 720
原创 使用大模型结合知识图谱应用于多文档问答
随着大型语言模型(LLMs)的出现,“预训练、提示和预测”的范式在实际应用中彻底革新了自然语言处理(NLP),如开放域问题回答、事实核查和算术推理。然而,在多文档问题回答(MD-QA)的情景下,这一框架尚未受到显著关注,而MD-QA在学术研究、客户支持和财务/法律查询等领域具有实际应用价值,这些领域需要从多个文档中洞察性地分析。图1:使用不同策略检索上下文时,向ChatGPT提示进行多文档问答(MD-QA)性能。
2024-09-05 09:55:10 848
原创 大型语言模型的模型压缩与高效推理:综述
基于Transformer的大型语言模型取得了巨大成功。然而,在推理过程中产生的显著内存和计算成本,使得在资源受限的设备上部署大型模型变得具有挑战性。。就分类而言,类似于较小的模型,。然而,与较小模型相比,大型语言模型有两个突出的特点:(1)。因此,许多针对大型模型的算法,如量化和剪枝,开始探索无需调整的算法。(2)。因此,许多算法,如知识蒸馏,关注于如何在压缩后保持其通用性和泛化能力。由于这两个特点在早期的大型模型中并不十分明显,作者进一步将大型语言模型区分为中等模型和“真正”的大型模型。
2024-09-04 10:59:55 854
原创 竟然不知道?还可以这样提升大语言模型的推理规划能力
以 ChatGPT 为代表的大语言模型在问题回答、文稿撰写、代码生成、数学解题等任务上展现出了强大的能力,引发了研究人员广泛思考如何利用这些模型开发各种类型的应用,并修正它们在推理能力、获取外部知识、使用工具及执行复杂任务等方面的不足。此外,研究人员还致力于如何将文本、图像、视频、音频等多种信息结合起来,实现多模态大模型,这也成了一个热门研究领域。鉴于大语言模型的参数量庞大,以及针对每个输入的计算时间较长,优化模型在推理阶段的执行速度和用户响应时长也变得至关重要。
2024-09-04 10:54:29 1093
原创 图解大模型训练之:数据并行(DP、DDP、ZeRO、零冗余优化)
1、在DP中,每个GPU上都拷贝一份完整的模型,每个GPU上处理batch的一部分数据,所有GPU算出来的梯度进行累加后,再传回各GPU用于更新参数2、DP多采用参数服务器这一编程框架,一般由若个计算Worker和1个梯度聚合Server组成。Server与每个Worker通讯,Worker间并不通讯。因此Server承担了系统所有的通讯压力。基于此DP常用于单机多卡场景。3、异步梯度更新是提升计算通讯比的一种方法,延迟更新的步数大小决定了模型的收敛速度。
2024-09-04 10:48:48 1189
原创 RAG or 微调?为特定用例选择适当方法的实践分享!
生成式 AI 技术与服务方兴未艾,大型语言模型彻底改变了我们处理语言任务的方式。它们在大量文本数据上进行了预训练,并可以通过称为微调(fine-tuning)的过程适应各种下游任务。微调是一种技术,涉及使用与该任务相关的较小数据集进一步训练特定任务或领域的预训练语言模型。通过这样做,模型可以学会更好地理解和生成针对特定上下文的文本,从而提高性能和准确性。
2024-09-03 11:14:23 935
原创 真心建议:学大模型别吃没必要的苦 ,强烈推荐这本必看书籍《从零开始大模型开发与微调》附PDF
本书作者有长期的研究生和本科生教学经验,通过通俗易懂的语言,深入浅出地介绍深度学习与神经网络理论体系的全部知识点,并在程序编写时使用PyTorch20最新框架进行程序设计,帮助读者更好地使用PyTorch模型框架,理解和掌握PyTorch程序设计的精妙之处。《ChatGLM3大模型本地化部署、应用开发与微调》不仅系统地阐述了深度学习大模型的核心理论,更注重实践应用,通过。本书手把手地从零开始向读者讲解大模型的构建方法,从最基础的深度学习模型搭建开始,直到完成大模型的设计、应用与微调工作。
2024-09-03 11:03:19 737
原创 RAG为什么需要向量数据库,向量数据库的检索效率如何提升?
在现代自然语言处理(NLP)技术中,RAG(Retrieval-Augmented Generation,检索增强生成)代表了一种新兴的方法,通过结合信息检索和生成模型来增强语言模型的知识覆盖和回答准确性。向量数据库在这一过程中起到了关键作用。本博文将深入探讨RAG为什么需要向量数据库及其核心作用,并探讨如何提升向量数据库的检索效率。RAG是一种将检索技术与生成模型结合的自然语言处理方法。
2024-09-02 10:35:32 1213
原创 RAG是如何工作的?
向量数据库是一种专门用于存储和检索高维向量数据的数据库,常见的有FAISS、Milvus、Pinecone等。向量数据库能够快速计算向量之间的相似度,支持高效的近似最近邻(ANN)搜索。
2024-09-02 10:30:25 1044
原创 今年读过最绝的大模型神书,看完直接脱胎换骨
大语言模型:基础与前沿》是一本关于大语言模型的权威著作,适合对大语言模型感兴趣的读者深入学习和研究。通过阅读该书,读者可以全面了解大语言模型的基本概念、算法原理、研究前沿以及应用实践等方面的知识。
2024-08-31 20:27:03 1191
原创 如何为你的大模型应用选择最佳架构?六大模式全面解读
随着大模型(如 GPT-4、BERT、GPT-3.5 等)在自然语言处理、图像识别、医疗诊断等领域的广泛应用,如何构建高效、灵活的架构来支持大模型在复杂场景下的应用变得至关重要。从灵活高效的路由分发到复杂智能的大模型代理,再到注重安全性的双重防护,不同的架构设计各有其适用场景和优势。通过路由分发,可以将这些任务快速分配到最合适的模型,提升响应效率。,旨在通过大模型的智能规划和任务拆解能力,自动将一个复杂的任务分解为多个更小的子任务,然后分别调用不同的小模型来处理各个子任务,最后将结果汇总生成最终的输出。
2024-08-31 20:13:13 1143
原创 重磅字节文章:通过知识图谱网络结合大模型评估SQL正确性(Text2sql、智能BI必看!)
在本文中,我们提出了一种新颖的基于图的方法来评估SQL生成的功能正确性。传统的评估SQL代码生成的指标,如基于匹配的方法和基于执行的方法(例如,精确集合匹配和执行准确性),存在两个主要限制。基于匹配的方法无法有效评估功能正确性,因为不同的SQL查询可能具有相同的功能。基于执行的方法在评估中容易产生假阳性样本。我们提出的评估方法FuncEvalGMN不依赖于测试数据的充分准备,能够精确测试代码的功能正确性。
2024-08-30 19:54:22 1463
原创 转做大模型开发,能不能挽救职业生涯?
大模型算是当之无愧最火的一个方向了,算是新时代的风口。有小伙伴觉得,既然是新领域、新方向,那么,人才需求肯定比较大,相应的人才缺乏,竞争也会更少我们先来分析一下大模型这个领域。实际上,大模型开发也分为两类。算法工程师就是研究大模型算法,应用工程师是基于大模型做一些上层应用的开发。当然,后面这类也需要对大模型有或多或少的了解,毕竟,你做普通业务开发还得了解MySQL、Kafka、Redis等底层实现一样。要求就高了,不是说你想转行去做,就能做得了的。
2024-08-30 19:50:38 947
原创 探究使用大模型进行知识图谱构建以及问答
近期能力展示。实体和关系抽取以及事件抽取是构建知识图谱的基础元素,有助于丰富实体、关系和事件信息的细化。同时,链接预测作为知识图谱推理的核心任务,旨在揭示实体之间潜在的关系,从而丰富知识图谱。此外,我们进一步探索了大型语言模型(LLMs)在基于知识的问答任务中的应用,以全面理解它们的推理能力。考虑到这些因素,我们选择这些任务作为评估知识图谱构建和推理的代表。如图1所示,我们的初步调查针对的是大型语言模型在上述任务中的零样本和单样本能力。此分析旨在评估这些模型在知识图谱领域的潜在用途。实证发现表明,
2024-08-30 19:40:13 905
原创 Prompt安全攻防演练-Llama3.1-70b
受篇幅限制,本文抛砖引玉。后面针对不同类型的攻击分别更新。基于LLM的App,prompt是重中之重,安全一旦出现问题,产品将瞬间崩塌,不得有任何闪失。此次验证,只是一个很简单的prompt,前后也经历了8个版本更新:复杂的prompt面对更多的攻击手段,测试过程将更加复杂和繁重。希望大家步步为营,稳抓稳打。另外,此次只针对Llama3.1-70b进行实验。不同模型、版本的基础能力千差万别,尤其是同时多个模型并存的产品。读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用。
2024-08-29 10:56:03 1018
原创 创建&优化prompt的prompt处理过程-base DeepSeek
首先创建一个优化prompt的prompt,不需要很复杂,复杂的过程让LLM去做:原始System prompt & User。
2024-08-29 10:50:34 760
原创 大模型入门好书推荐 - 《大规模语言模型:从理论到实践》附PDF版
预训练阶段:介绍了如何利用包含数千亿甚至数万亿单词的训练数据,并借助超级计算机进行深度神经网络参数的训练。同时,探讨了如何构建训练数据以及高效地进行分布式训练。有监督微调阶段:讲解了如何利用少量高质量的数据集,通过提示学习和语境学习等方法,将语言模型转变为对话模型。这一阶段的难点在于如何构建训练数据及其内部关系。奖励建模和强化学习阶段:介绍了如何根据用户提示词,利用奖励模型评估模型补全结果的质量,并通过强化学习进一步优化模型性能。该阶段需要解决强化学习方法稳定性不高、超参数众多及模型收敛困难等问题。
2024-08-28 11:06:44 1669
原创 大模型开发 - 一文搞懂人工智能数学基础(下):概率论
无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2024-08-28 10:57:19 984
原创 大模型开发 - 一文搞懂人工智能数学基础(中):线性代数
本文将从向量与矩阵、行列式与线性方程组、特征值与特征向量三个方面,带您一文搞懂人工智能数学基础(中):线性代数。
2024-08-28 10:45:45 727
原创 【大模型书籍】复旦出品!大规模语言模型:从理论到实践_大规模语言模型从理论到实践pdf
自2018年以来,包含Google、OpenAI、Meta、百度、华为等公司和研究机构都纷纷发布了包括BERT, GPT等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。今天给大家推荐一本大模型方面的书籍,本书将介绍大语言模型的基础理论包括语言模型、分布式模型训练以及强化学习,并以Deepspeed-Chat框架为例介绍实现大语言模型和类ChatGPT系统的实践。书籍作者章节内容😝有需要的小伙伴,可以V扫描下方二维码免费领取==🆓👉[CSDN大礼包(安全链接,放心点击)]()👈。
2024-08-27 10:56:08 198
原创 大模型开发 - 一文搞懂人工智能数学基础(上):微积分
不懂微积分,如何精准调参和高效训练AI?本文将从极限与导数、函数求导、函数最优化:梯度下降法三个方面,带您一文搞懂人工智能数学基础(上):微积分。
2024-08-27 10:47:32 537
原创 大模型开发 - 一文搞懂CNNs工作原理(卷积与池化)
本文将从__三个方面,带您一文搞懂CNNs工作原理卷积神经网络通过卷积和池化操作有效地处理高维图像数据,降低计算复杂度,并提取关键特征进行识别和分类。输入层:INPUTC1、C3和C5S2和S4F6LeNet-5通过卷积层提取图像局部特征,池化层降低数据维度,全连接层进一步提取高级特征并进行分类。INPUT层:负责接收32x32像素的输入图像,是数据的入口。C1层:应用6个5x5的卷积核对输入图像进行特征提取,输出28x28的特征图。S2层。
2024-08-27 10:33:50 1067
原创 大模型入门书籍推荐丨中国人工智能大模型技术白皮书!大模型入门必看的一本书(附文档)
近日,中国人工智能学会发布了《中国人工智能大模型技术白皮书》。白皮书全面梳理了大模型技术的发展历程、关键技术、生态发展、应用实践等方面的最新进展,并对其未来趋势做出展望。大模型技术,以其广阔的应用前景和巨大潜力,无疑成为了技术发展的焦点。然而,随之而来的挑战亦不容忽视:可靠性、可解释性的难题需要我们去攻克,数据质量与数量的提升成为迫切需求,应用部署成本的降低与迁移能力的增强同样重要,而安全与隐私保护的强化更是关键中的关键。👉[CSDN大礼包(安全链接,放心点击)]()👈。
2024-08-26 10:59:47 544
原创 大模型开发 - 一文搞懂RNNs工作原理
本文将从__三个方面,带您一文搞懂RNNs工作原理循环神经网络是一类专门用于处理序列数据的神经网络。,使得当前时刻的输出不仅依赖于当前时刻的输入,还依赖于之前时刻的输出或隐藏状态。RNN(循环神经网络)架构输入层:接收输入数据,并将其传递给隐藏层。输入不仅仅是静态的,。。隐藏层的输出不仅取决于当前的输入,。输出层:根据隐藏层的输出生成最终的预测结果。
2024-08-26 10:53:48 973
原创 大模型开发 - 一文搞懂Encoder-Decoder工作原理
本文将从__三个方面,带您一文搞懂工作原理。Encoder-Decoder工作原理输入一个序列,输出另一个序列。核心思想:编码器(Encoder):使用一个循环神经网络(RNN)作为编码器(Encoder),读取输入句子,并将其压缩成一个固定维度的编码。解码器(Decoder):使用另一个循环神经网络(RNN)作为解码器(Decoder)读取这个编码,并逐步生成目标语言的一个句子。避免了传统方法中繁琐的特征工程和手工设计的对齐步骤。
2024-08-26 10:35:47 781
原创 大模型开发 - 一文搞懂Embedding工作原理
本文将从Text Embedding工作原理、Image Embedding工作原理、Vedio Embedding工作原理三个方面,带您一文搞懂Embedding工作原理。
2024-08-24 10:39:15 1016
原创 给普通开发者如何入局 AI 的几点建议!
根据《2024 年全球人工智能行业报告》最新的数据显示,全球 AI 市场预计将以每年超过 40% 的速度增长,到 2030 年市值将达到数万亿美元,这也是预示着在接下来的十年到十五年里,人工智能将获得巨大的发展红利。在过去的一年多时间里,我持续关注着大模型的发展趋势,并且尽可能地进行了尝试和实践。在学习的过程中,遭遇了不少问题,可能你也碰到过,比如:如何在众多模型中选择合适自己领域的模型并进行优化?如何在 AI 时代找到自己的位置,并实现技术的真正落地?如何利用 AI 技术为你的项目赋能?
2024-08-23 10:56:15 1170
原创 大模型开发 - 一文搞懂Transformer工作原理
本文将从__三个方面,带您一文搞懂。单头注意力是一种注意力机制,它只求一次注意力。在这个过程中,对同样的查询(Q)、键(K)和值(V)求一次注意力,得到一个输出。这种机制允许模型从不同的表示子空间在不同位置关注信息。Query、Key和Value矩阵:Query矩阵(Q):表示当前的关注点或信息需求,用于与Key矩阵进行匹配。Key矩阵(K):包含输入序列中各个位置的标识信息,用于被Query矩阵查询匹配。
2024-08-23 10:45:44 981
原创 大模型开发 - 一文搞懂人工智能基础(下):神经网络结构
本文将从什么是CNN?什么是RNN?什么是Transformer?三个问题,带您一文搞懂人工智能基础(下):神经网络结构。
2024-08-23 10:33:32 845
原创 普通人如何转型成为AI产品经理
成为AI产品经理是一个充满挑战和机遇的职业道路。如果你对人工智能充满热情,并且愿意不断学习和适应新技术,那么这可能是一个适合你的职业选择。记住,成为一名优秀的AI产品经理,不仅需要技术知识,更需要创新思维和用户导向的产品设计能力。👉[CSDN大礼包全网最全《AI产品经理入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈。
2024-08-22 10:37:37 847
原创 大模型开发 - 一文搞懂人工智能基础(上):模型
本文将从什么是模型?什么是模型训练?什么是模型微调?三个问题,带您一文搞懂人工智能基础(上):模型。
2024-08-22 10:31:21 608
原创 大模型开发--文搞懂Fine-tuning(大模型微调)
本文将从三个方面,带您一文搞懂一、微调的定义大模型微调是利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能,使模型能够更好地适应和完成特定领域的任务。二、微调的核心原因定制化功能:微调的核心原因是赋予大模型更加定制化的功能。通用大模型虽然强大,但在特定领域可能表现不佳。通过微调,可以使模型更好地适应特定领域的需求和特征。领域知识学习:通过引入特定领域的数据集进行微调,大模型可以学习该领域的知识和语言模式。这有助于模型在特定任务上取得更好的性能。
2024-08-22 10:25:39 849
原创 大模型学习方法之——大模型技术学习路线
大模型技术爆火至今已经有两年的时间了,而且大模型技术的发展潜力也不言而喻。因此,很多人打算学习大模型,但又不知道该怎么入手,因此今天就来了解一下大模型的学习路线。丁元英说:“透视社会有三个层面,技术,制度与文化”;同样的,技术学习同样有三个层面,理论,实践和应用,三者相辅相成,缺一不可。技术的意义在于解决问题01大模型技术学习的理论,实践与应用学习大模型技术需要系统性的理论基础,实践技能以及最新的研究进展和应用场景。以下是一个大模型学习进阶路线,涵盖了理论,技术和应用等方面。
2024-08-21 10:08:09 770
原创 RAG混合检索:掌握倒数秩融合RRF多维度提升检索结果评分的秘诀
倒数排名融合 (RRF) 是一种算法,可评估多个以前的排名结果中的搜索分数以生成统一的结果集。在RAG搜索中,每当并行执行两个或更多个查询时,都会使用 RRF。每个查询都会生成一个排名结果集,RRF 可用于将排名合并和同质化为单个结果集,在查询响应中返回。始终使用 RRF 的示例方案包括混合搜索和并行执行的多个矢量查询。RRF 基于倒数排名的概念,即搜索结果列表中第一个相关文档的排名的倒数。该方法的目标是考虑项目在原始排名中的位置,并赋予在多个列表中排名较高的项目更高的重要性。
2024-08-21 10:05:16 671
原创 AI快步疾走:一文助你秒懂GraphRAG
如附图二所示,给定一个查询(Query),RAG从一个垂直领域知识库(图中向量化后的“Vector Database”)中检索(Retrieve)与查询内容相关的文档或段落(Context,简称“上下文”),并将查询信息(Query)与检索到的上下文信息(Context)进行组合转化成LLM的“提示词”((Prompt),由LLM生成(Generate)答案(Response)。这便于RAG的应用原理。
2024-08-21 10:03:14 888
原创 大模型开发--文搞懂LangChain(五):Chains
本文将从Chains的本质、Chains的原理、Chains的应用三个方面,带您一文搞懂 LangChain(五):Chains。
2024-08-18 10:00:00 1642
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人