自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(357)
  • 收藏
  • 关注

原创 大模型教程:使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用

Milvus 是一款开源的分布式向量数据库,可用于存储、索引和搜索向量数据,适用于生成式 AI(GenAI)应用。Milvus 支持 hybrid search、元数据过滤、重排(Reranking),能够高效处理万亿规模的向量,助力开发者搭建 AI 和 ML 应用。您可以在本地运行 Milvus standalone 或 cluster 版本,或者使用全托管的 Milvus 服务——Zilliz Cloud。

2024-09-12 10:54:57 275

原创 普通人,适合转行大模型吗?大模型的未来前景怎么样?

在当今时代,AI大模型的发展如火如荼,其在各行各业的应用日益广泛。那么,作为普通人,我们是否应该转行投身于大模型领域呢?本文将从以下几个方面阐述,为什么普通人应该转行大模型,以及大模型的未来前景如何。未来参与的人还是会越来越多,培训也会越来越多,现在是混沌的机会时期,可以进来插一竹杠,进入AI大模型时代的一个机会,当然未来它也会成为一个企业的基础工具。对于普通人那高薪而言,的确是一个机会,可能是传统岗位的基础上 + 5K,甚至更高回报。但。。

2024-09-12 10:51:55 588

原创 大模型LLM:合成训练样本的数据分布问题

近几天在研究大模型LLM时,使用合成数据集来训练LLM“统计字符串(100个单词以内)中字母的个数”的能力,基于Word进行分词。原始的使用单卡训练12个小时左右,测试准确率约为99.937%。这个准确率看上去很高的,但在人工测试过程中发现,模型对一些简单的case都会预测错误。从直觉上看,出错的case应该是更容易预测的。对此我提出如下猜测:如果测试样本的数据分布跟训练样本的数据分布差异较大,就会导致测试准确率降低。

2024-09-11 10:30:09 694

原创 大模型时代,新手和程序员如何转型入局大模型行业?

在当今大模型迅猛发展的环境下,人工智能的应用越来越广泛。然而,这些大模型的背后隐藏着更为深厚的基础技术——传统机器学习和神经网络。理解这些基础技术,不仅能够帮助我更好地使用大模型,还能为我提供创新和解决实际问题的能力。因此,在这个AI迅猛发展的时代,掌握传统机器学习和神经网络显得尤为重要。在近期的全国两会上,“人工智能”再次被提及,并成为国家战略的焦点。这一举措预示着在接下来的十年到十五年里,人工智能将获得巨大的发展红利。

2024-09-11 10:23:23 1379

原创 从零开始:如何使用 Hugging Face Transformers 进行大模型开发

随着人工智能技术的迅猛发展,机器学习和深度学习逐渐成为各行各业的热门话题。然而,对于许多没有专业背景的初学者来说,如何上手这些复杂的技术成了一个难题。幸运的是,Hugging Face Transformers 库的出现,极大地降低了大模型开发的门槛,使得每个人都能轻松地参与到 AI 项目的开发中来。在这篇文章中,我们将详细介绍 Hugging Face Transformers 库的独特价值和核心功能模块。

2024-09-10 10:57:03 831

原创 墙裂推荐:《Transformer自然语言处理实战:使用Hugging-Face-Transformers库构建NLP应用》,行内人都在看的大模型神书!附PDF!

Transformer自然语言处理实战:使用Hugging-Face-Transformers库构建NLP应用》一书,为广大开发者提供了一个学习Transformer技术的捷径。相信通过本书的学习,您将能够在NLP领域取得更好的成果,为我国人工智能产业发展贡献力量。快来加入我们,一起探索Transformer的无限可能吧!下面简单展示一下这本书籍的部分内容我已将这本大模型书籍免费分享出来,需要的小伙伴可以扫取。

2024-09-10 10:55:09 744

原创 突破最强算法模型,Transformer !!

这几天,大家对于Transformer的问题,还是不少。今儿再和大家聊聊~简单来说,Transformer 是一种,在机器翻译、语言理解等任务中表现特别好。它的核心思想是(Self-Attention),能够处理句子中的所有词并理解它们之间的关系。开始,咱们用一个浅显易懂的例子来说明 Transformer 是怎么工作的。假设你在读一句话:“传统的模型(比如循环神经网络,RNN)是按顺序阅读这句话的。也就是说,它先看到“”,然后是“”,再是“”……每读到一个词,它才记住前面的部分。

2024-09-09 10:50:48 956

原创 # 速览多模态模型 Transfusion 和 Show-o:用 Transformer + 扩散模型同时处理文本和图像

此前多模态模型都只是强行把图像变成离散图像词元,再用标准自回归来生成图像词元。为了改进这些多模态模型,无独有偶,Transfusion 和 Show-o 都用到了更先进的图像生成技术。Show-o 将标准自回归改成了更强大的掩码自回归,而 Transfusion 激进地引入了完整的图像扩散模型,并把文本生成和图像生成当成两个相对独立的任务。

2024-09-09 10:40:18 1445

原创 时间序列预测中如何构建层级化的 Transformer 架构?

近年来,学界和业界致力于通过引入先进的网络架构和自监督预训练策略来提高时间序列预测的准确性。然而现有方法存在两大缺点。本文介绍一篇 KDD 2024 中的时间序列预测工作,来自中科大的研究者提出了一种新的生成式预训练分层 Transformer 架构用于预测,命名为 GPHT。时间序列预测作为时间序列分析中的一项基础任务,近年来的热度居高不下。一方面,基于深度学习的方法因其能够捕获时间和跨纬度依赖性的能力而取得成功。

2024-09-09 10:39:08 724

原创 掌握这 6步,轻松调试大语言模型的提示词 prompt

通过以上 6 个步骤的调试,我们能够显著提高大语言模型对我们需求的理解和执行能力,从而获得更精准、更有价值的输出结果。无论是解决孩子的学习问题、行为习惯还是心理困扰,都能更加贴合我们的期望,为孩子的成长带来更多的帮助,也帮助我们更高效的带娃。学习了调优prompt的这6个步骤,也许你会发现,这调试的过程不也是我们人与人直接清晰表达的过程吗?想清楚想要表达的,调整表达方式使对方理解,描述不清的可以举例说明,对对方输出的内容进行反馈,然后进行后续的深入沟通。

2024-09-08 09:00:00 775

原创 干货!中国人工智能大模型技术白皮书,大模型人必看!!!

尽管大模型技术具有广泛的应用前景和潜力,但仍需要解决其。

2024-09-07 10:15:00 541

原创 大模型开发的5种应用架构

​ 架构对一个项目来说至关重要,它们能帮助构建高效、可维护的系统。然而,当我们进入大模型应用领域时,传统的设计模式似乎不再完全适用。生成式 AI 等新兴技术的出现,使得我们在设计这些系统时面临前所未有的挑战。​ 在大模型应用实现过程中存在许多独特的问题,例如高昂的成本、较长的响应延迟以及生成内容的不确定性。这些问题要求我们在设计时采用新的方法和策略,以确保系统的稳定性和效率。​ 为了解决这些问题,总结了一些针对大模型应用的设计方法和架构模式。

2024-09-06 10:30:32 1131

原创 号称第一本程序员的Agent入门书籍?《大模型应用开发 动手做AI Agent》来了!

这本书一共9章,涉及到基础理论、Agent 框架、Multi-Agent、代码实战等丰富内容,整本书更偏向教程实战,就像书名所说的,相当一部分都是代码教学而非枯燥的理论研究,我认为即使是代码小白,也能跟着步骤一步一步用代码实现一个 Agent!书中既介绍了 ReAct、LangChain 等经典框架,也涉及了爆火的 AutoGPT、Camel 等,还有 AutoGen、MetaGPT 这样的多智能体框架,还是非常惊喜的!

2024-09-06 10:28:18 341

原创 论 LLMs 如何解决长文本问题?

底数越大,位置向量能表示的序列就越长,这是大底数的好处。但是,底数大,意味着在-1到+1的范围内向量的取值越密集,造成两个位置的向量距离越近,这对后续的Self-Attention模块来说是不利的,因为它需要经历更多的训练次数才能准确地找到每个位置的信息,或者说,才能准确地区分不同的位置。相对位置并没有完整建模每个输入的位置信息,而是在算Attention的时候考虑当前位置与被Attention的位置的相对距离,由于自然语言一般更依赖于相对位置,所以相对位置编码通常也有着更好的表现,灵活性也更大。

2024-09-05 10:27:01 1172

原创 终于看懂大模型评估LLM evals, 5 个策略让GPT更听话 | 附标题提示词prompt

我对大模型的评估一直没有深入研究,以前看到评估类就直接跳过,但最近接触到这个话题时,我第一次认真试着去理解evals, 想到的最实用最落地的是怎么评估一下我的每个 Prompt 下的 GPTs 的内容生成质量例如,对于像这样的应用,可以设定一个评判机制,从生成的多个标题中挑选出最佳的一个。对于写视频脚本这样有多种创意表达方式的任务,可以探索如何选择最具创新性的脚本(这个稍稍有些难,我还在琢磨中)

2024-09-05 10:22:06 811

原创 豆瓣评分7.9!AI大模型时代利器:LangChain入门指南

2023年,LLM(大语言模型)井喷式爆发,尤其是GPT-4问世,一石激起千层浪,影响了整个人工智能领域,每个开发者都被“裹挟”着进入了 LLM 应用开发时代。在这样的大背景下,LangChain 这个以 LLM 为核心的开发框架应运而生,进一步推动了这一领域的创新和发展。不同于其他传统的工具或库,LangChain 提供了一个完整的生态系统,为开发者带来了一系列强大的功能和工具,从而简化了 LLM 开发的复杂性。全书共分 11章,内容涵盖从 LLM 基础知识到高级应用技巧的方方面面。

2024-09-04 10:09:31 856

原创 如何使用 Mistral 和 Llama2 构建 AI 聊天机器人

让我们从 Mistral 7B Instruct 的 GGUF 量化版本开始,并使用 AutoClasses ‘AutoModelForCausalLM’ 之一来加载模型。AutoClasses 可以帮助我们自动检索给定模型路径的模型。AudoModelForCausalLM 是具有因果语言建模的模型类之一,这就是 Mistral 7B Instruct 模型所需要的。Python在上面的例子中,当我们运行模型推理时,它会在生成整个答案时返回一个响应。当我们生成较长的响应时,这可能会很慢。

2024-09-04 10:04:43 937

原创 开发RAG应用,你必须知道的7个Embedding模型

在自然语言处理(NLP)领域,Embedding模型是将文本数据转化为数值向量的核心技术,从而让计算机能够便捷地衡量文本间的语义关联,这种表示法已成为多种基础NLP任务的核心,如文本相似度判定、语义搜索、信息检索、文本重新排序、聚类以及作为下游任务的特征输入。

2024-09-03 10:20:15 423

原创 Embeddings入门详解!手把手带你训练

主要用于将高维的数据转化为低维空间,以便于算法更好地处理和理解数据。嵌入通常用于将离散的、高维的特征转换为连续的、低维的向量表示。本文将以经典的嵌入模型 word2vec 为例介绍其训练过程,embedding 过程,通过阅读,您将理解。

2024-09-03 10:18:45 985

原创 从零手搓中文大模型|Day04|模型参数配置和训练启动|我的micro模型跑起来啦!

今天我们来研究一下。litgpt使用的配置文件和有点不太一样,它的仓库里提供了一些预训练所用的yaml配置文件样例[1]。这个主要用于需要自定义模型的场景。另外litgpt也内置了一些上的现成模型[2],可以直接拿来使用。

2024-09-02 10:23:14 1063

原创 上交2024最新-《动手学大模型》实战教程及ppt分享!

动手学大模型》系列编程实践教程,由上海交通大学2024年春季《人工智能安全技术》课程(NIS3353)讲义拓展而来(教师:张倬胜),旨在提供大模型相关的入门编程参考。通过简单实践,帮助同学快速入门大模型,更好地开展课程设计或学术研究。

2024-09-02 10:20:44 288

原创 小白学NLP:BERT知识表示、训练和压缩

BERT是一堆Transformer编码器组成。对于序列中的每个输入,每个头计算键、值和查询向量,用于创建加权表示。同一层中所有头的输出通过一个全连接层运行合并。原始BERT的训练流程包括两个阶段:预训练和微调。预训练使用两个自监督任务:masked language modeling(MLM,随机屏蔽输入的预测)和next sentence prediction(NSP,预测两个输入句子是否彼此相邻)。在对下游任务进行微调时,通常会在最终编码器层之上添加一个或多个全连接层。

2024-09-01 10:45:00 556

原创 掌握 BERT:自然语言处理 (NLP) 从初级到高级的综合指南(2)

文本摘要涉及将较长文本的精髓提炼成较短的版本,同时保留其核心含义。尽管 BERT 不是专门为此构建的,但它仍然可以通过提供原始文本并使用它提供的上下文理解生成简洁的摘要来有效地使用。在这篇博文中,我们踏上了 BERT 变革世界的启发之旅——来自 Transformers 的双向编码器表示。从诞生到实际实施,我们已经了解了 BERT 对自然语言处理 (NLP) 及其他领域的影响。我们深入研究了在现实场景中使用 BERT 所带来的挑战,发现了解决处理长文本和管理计算资源等问题的策略。

2024-08-31 20:56:25 1235

原创 掌握 BERT:自然语言处理 (NLP) 从初级到高级的综合指南(1)

BERT(来自 Transformers 的双向编码器表示)是 Google 开发的革命性自然语言处理 (NLP) 模型。它改变了语言理解任务的格局,使机器能够理解语言的上下文和细微差别。在本文[1]中,我们将带您踏上从 BERT 基础知识到高级概念的旅程,并配有解释、示例和代码片段。在不断发展的自然语言处理 (NLP) 领域,一项名为 BERT 的突破性创新已经成为游戏规则的改变者。BERT 代表 Transformers 的双向编码器表示,它不仅仅是机器学习术语海洋中的另一个缩写词。

2024-08-31 20:53:47 1289

原创 大模型技术 | 基于大模型构建本地知识库

模型以其庞大的数据容量和深度学习能力,为处理复杂任务提供了前所未有的可能性。但在特定应用场景下仍面临挑战,尤其是在需要快速、准确响应的情境中。为了克服这些限制,构建一个基于大模型的本地知识库显得尤为重要。

2024-08-30 10:43:09 949

原创 Prompt提示词如何写才能发挥大语言模型LLM的最大潜力

提示工程学是一门相对较新的学科,用于开发和优化提示,以便高效地利用语言模型(LM)来进行各种应用和研究主题。提示工程技能有助于更好地了解大型语言模型(LLM)的能力和限制。研究人员使用提示工程来改善LLM在各种常见和复杂任务上的能力,例如问答和算术推理。开发人员使用提示工程来设计与LLM和其他工具接口的强大和有效的提示技术。本文主要介绍标准提示的基础知识,以提供指导如何使用提示与大语言模型(LLM)进行交互。

2024-08-30 10:35:33 1054

原创 【LLM】FuseLLM:大模型融合trick-知识融合LLMs

传统的模型融合方法分为集成的方法和权重合并的方法,这两种方法在以往的NLP的比赛中非常常见,是一种提分手段。然而,上述两种方法都需要预训练或者微调相应的模型。在大模型场景下,对每个源模型都进行初始化成本太高,为了减少初始化源LLM的成本,使集成后的模型受益于所有源LLMs的优势。因此,本文介绍了一种知识融合的方法用来进行大模型的融合。

2024-08-29 09:59:08 634

原创 如何使用Hugging Face微调大语言模型(LLMs)

而且无需进行额外的训练。但是,如果你想为你的应用定制模型,可能需要在你的数据集上对模型进行微调,以获得比直接使用或训练更小型模型更高质量的结果。本文将介绍如何使用Hugging Face的。

2024-08-29 09:57:30 1168

原创 大模型崛起,向量数据库却凉透了?老码农这样看

首先,我们需要理解什么是向量?向量是基于不同特征或属性来描述对象的数据表示。每个向量代表一个单独的数据点,例如一个词或一张图片,由描述其许多特性的值的集合组成。这些变量有时被称为“特征”或“维度”。例如,一张图片可以表示为像素值的向量,整个句子也可以表示为单词嵌入的向量。

2024-08-28 10:04:21 762

原创 RAG的基石:大语言模型文本向量化能力对比

大家都比较关心大语言模型的能力,但往往容易忽略其向量化(Embedding)的能力。在RAG应用中,对文本进行向量化后再计算向量相似度,如余弦相似度,是文本检索生成的基础和前置环节。如果向量不准确,必定会影响相似度计算,进一步影响招回和重排,甚至知识抽取等下游任务,影响甚大。因而我们需要认真来对待其结果,并且对其正确性和合理性进行评价。本中对一些简单的文本对,使用不同的开源7B大语言模型来进行向量化,最终以其余弦相似度作为输出作为测试结果。

2024-08-28 10:01:57 729

原创 从LLaVA-NeXT到Cambrian-1!SOTA多模态大模型架构设计的最佳实践

本文主要聚焦2024年以来学术界和产业界的SOTA多模态大模型,分享架构设计中的深刻见解与最佳实践。原文链接:https://zhuanlan.zhihu.com/p/706145455本文聚焦2024年以来学术界和产业界的SOTA多模态大模型 (Multimodal Large Language Models, MLLM),分享架构设计中的深刻见解与最佳实践。我们会发现,最新流行的MLLM架构大多采用类LLaVA的ViT+MLP+LLM范式。

2024-08-27 10:39:56 949

原创 大一统!多模态模型评测框架lmms-eval!

来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。转载自丨机器之心随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

2024-08-27 10:36:22 732

原创 一文读懂Token,大模型为什么要按token计费

在大型语言模型中,"Token"可以被理解为文本中的一个基本单位,它是计算机处理和理解语言的起点。每个Token可以是一个单词、一个字符、或者一个子词(subword),具体取决于所使用的分词方法。CSDN上大批作者测算 1000个token大约相当于750个英文单词。1个 token大概是 0.75个单词。每个Token在模型中会被转换成一个数字ID,这些ID对应于模型的词汇表中的条目。模型通过这些ID来处理文本数据。对于 ChatGPT 等生成式AI来说,“Token”扮演着至关重要的角色。

2024-08-26 10:17:46 623

原创 Meta提出多token模型,开启人工智能的新起点,或将彻底改变当前主流的模型训练方法!

Meta 提出了一种新颖的训练 LLMs 的方法,这种方法在进行模型训练时同时预 测多个 token,而不是传统的每次预测一个token 的方法。这种多 token 模型不仅 将文本生成速度提高了三倍,而且还提高了模型的智能性,MBPP 和 HumanEval 等编码基准的卓越性能证明了这种方法的有效性。新的架构包括额外的输出头, 允许模型在进行预测时考虑后续标记的上下文,从而产生更加连贯和上下文适当 的输出。

2024-08-26 10:16:02 438

原创 大模型训练核心算法之——反向传播算法

反向传播是深度神经网络训练的核心算法,旨在通过计算和传播梯度来优化模型参数;以下是从原理,实现和技术细节等多个方面对反向传播进行介绍。

2024-08-24 10:31:05 956

原创 大模型训练核心算法之——损失函数算法

损失函数是机器学习模型训练过程中的关键组成部分,它衡量模型预测的准确性并指导模型参数的优化。理解损失函数的原理、实现和技术细节对于成功训练和优化模型至关重要。选择合适的损失函数、计算梯度、处理数值稳定性问题以及使用优化算法,都是提高模型性能的重要步骤。​。

2024-08-24 10:28:28 841

原创 Langchain[3]:Langchain架构演进与功能扩展:流式事件处理、事件过滤机制、回调传播策略及装饰器应用

v0.1: 初始版本,包含基本功能。LangChain 的未来发展注意:自 0.2.0 版本起,langchain 不再依赖 langchain-community。langchain-community 将依赖于 langchain-core 和 langchain。以下这些API从0.2版本起要显式的传递LLM以下代码已被移除0.2前运行结果会是:my_tool: (x: str) -> str - Some description. 0.2后的运行结果是:Some description.

2024-08-23 11:05:02 932

原创 大模型LLM:langchain agent及用langchain框架写一个math agent

利用langchain快速实现一个使用tool的agent主要有两种方式。

2024-08-23 10:50:01 534

原创 RAG 使用Rerank和两阶段检索来提升你的检索质量

检索增强生成 (RAG)是一个含义丰富的术语。它向世界许诺,但在开发出RAG管道后,我们中的许多人仍然在疑惑,为什么它的效果不如我们预期的那样好。与大多数工具一样,RAG 易于使用但难以掌握。事实是,RAG不仅仅是将文档放入矢量数据库并在上面添加LLM。这可以奏效,但并不总是如此。本文中将介绍通常最简单、最快速地实施次优RAG管道的解决方案 — 我们将学习重新排序器。

2024-08-22 10:27:14 1175

原创 实验室 #3:实施 RAG 以构建“与多个 PDF 聊天”应用程序

RAG (检索增强生成)是一种通过从外部资源获取事实来提高生成 AI 模型准确性和可靠性的技术。几乎每个 LLM都可以使用 RAG 连接几乎任何外部资源。RAG 使您的应用程序对我们的用户更可靠(“信任”)。为什么?因为 RAG 为模型提供了可以引用的来源,就像研究论文中的脚注一样,因此用户可以检查任何声明。这建立了信任。减少模型错误猜测的可能性,这种现象有时称为幻觉。最后,RAG 使得这种方法比使用额外数据集重新训练模型更快且成本更低。并且它允许用户动态更换新的来源。

2024-08-22 10:25:51 872

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除