- 博客(457)
- 收藏
- 关注
原创 LLM 评估汇总:真的吊打 LLaMA-3,媲美 GPT-4 吗?
一、背景在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称“吊打 LLaMA 3”或“媲美 GPT-4”的说法。那么,国内的大模型真的已经达到对标 OpenAI 的水平了吗?实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性能较强的大模型的相关指标,以全面了解各种模型的能力。
2024-10-18 11:37:00
672
原创 如何赋予LLM多模态能力(MLLM)
多模态大型语言模型(MLLMs)的发展代表了人工智能领域中的一个前沿方向,其结合了视觉与语言的处理能力,使模型不仅能理解文字信息,也能解析和理解图像数据。总体来看,多模态大型语言模型的发展不仅扩展了模型处理语言的能力,还使其能够理解和生成与视觉内容相关的信息,大大增强了模型在现实世界应用中的实用性和灵活性。:训练MLLMs的技术可能非常复杂,可能包括带有标记的多模态数据集的有监督学习、无监督学习,或是如对比学习等方法,以区分多模态输入之间的细微差别。:这包括处理多模态数据的神经网络架构的设计。
2024-10-18 11:35:33
937
原创 2024了,传统行业转行AI,可不可行?
大家好,我是刚刚毕业于一所985学校的本科?呵呵,当然是传统行业当时的一腔热血,经历考研的沉沦,二战的破釜,终于收获985大学offer然而还是本专业。但研究方向彻底变成了研究生之后,受眼界和环境影响,遂打算彻底转行一屋4人,天天讨论半导体、芯片、自动驾驶、转行、AI交叉。美哉,当时也是一段激荡的岁月啊。所以在做好科研的基础上,天天弄代码,查资料可是最后到秋招,还是太难了,还有好多没学好,比如力扣刷的太少,还有深度学习研究的不深所以个人经验看过来,
2024-10-17 11:12:40
914
原创 RAG 在企业数智化场景下的设计与改进
2024 年可以算得上是多模态大模型取得井喷的一年,5 月发布的 GPT-4o,让多模态大模型进一步走进了我们的视野,如果说在 2023 年,多模态的应用还停留在传统的简单图像搜索,到 2024 年,则真正开始了对多模态数据的理解。下图是 24 年涌现的多模态大模型代表,既有商业,也有开源。可以看到,从对图像的理解角度来看,2024 年已经取得了长足进步。随之而来的,就是多模态 RAG,是否也会开始落地并产生价值?我们先来看看多模态 RAG 的都有哪些使用场景。
2024-10-17 11:10:32
871
原创 多模态大模型入门指南
如表1所示,对26 SOTA MM-LLMs的架构和训练数据集规模进行了全面比较。随后,简要介绍这些模型的核心贡献并总结了它们的发展趋势。代表了一系列视觉语言 (VL) 模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。(2)BLIP-2引入了一个资源效率更高的框架,包括用于弥补模态差距的轻量级 Q-Former ,实现对冻结 LLMs 的充分利用。利用 LLMs,BLIP-2 可以使用自然语言提示进行零样本图像到文本的生成。(3)LLaVA。
2024-10-16 14:38:10
1397
原创 使用LLM和RAG进行数据库查询(文本到SQL)的四大挑战及解决方案
WrenAI是您与数据的自然语言接口WrenAI是您与数据的自然语言接口WrenAI是开源的。您可以在您的数据、LLM API和环境中的任何地方部署WrenAI。它带有直观的入门和用户界面,允许您在几分钟内连接和建模数据源中的数据模型。在WrenAI的底层,开发了一个名为“Wren Engine”的框架——LLM的语义层。Wren Engine也在GitHub上开源。
2024-10-16 11:34:10
1052
原创 NLP面试官:“大模型常用的 Normalization 都有什么? ” 算法女生表示易如反掌
大语言模型常用的 Normalization 都有什么?目前流行的主要有两种:LayerNorm 和 RMSNorm。早期的 GLM 系列曾经用过 DeepNorm,后来我印象在 ChatGLM2 的时候就改成 LayerNorm 或者 RMSNorm 了。如果硬要再细分的话,可以根据 Norm 的位置分为 Pre-LayerNorm, Post-LayerNorm, Pre-RMSNorm, Post-RMSNorm.下面重点看一下 LayerNorm 和 RMSNorm。
2024-10-15 11:39:33
1005
原创 用这条Prompt构建CoT+PoT验证器评估LLM输出,显著提高LLM推理准确性和一致性
即便是最先进的LLM,在复杂的多步推理问题上仍然面临挑战。如何提高LLM的推理准确性和一致性,成为了AI研究者们关注的焦点。尽管LLM在各种自然语言任务中表现出色,但在数学和代码推理等复杂任务中仍然存在明显的短板。研究者们发现,即使是最先进的LLM,在生成单一解决方案时的准确率往往不尽如人意。然而,有趣的是,当允许模型生成多个解决方案时,正确答案通常能够在这些样本中被找到,召回率甚至超过85%。
2024-10-15 10:06:18
982
原创 [大语言模型:基础与前沿] 首位AI程序员上线,关于LLM的好机会都写在了这本书里!
当前 LLM 变得越来越强大和复杂,本书作者熊涛深感有必要向读者全面介绍这些模型的基础知识和前沿发展,帮助读者厘清基本概念,也看到 LLM 的局限,最大限度地获益,并在未来有创造性地突破。**《大语言模型:基础与前沿》**这本书就剖析了 LLM 的技术机理,介绍了前沿研究成果,探讨 LLM 的价值对齐问题,以及环保主题等,有助于我们全面了解 LLM 的原理与应用。,因为它不仅讲解了当前 LLM 技术的原理与应用,还展望了未来的发展方向,更对其争议也进行了思辨,帮助读者找到技术与现实应用的最佳结合点。
2024-10-14 13:49:14
1065
原创 端到端多模态Transformer视频对象分割!
由于这一多模态任务的复杂性,它结合了文本推理、视频理解、实例分割和跟踪,现有的方法通常依赖于复杂的流程来解决这个问题。
2024-10-14 10:37:38
602
原创 AI 大模型催生的新职业,提示词工程师是什么?
当谈起提示词工程师时,我们实际上想谈论什么?我们谈论的是AI领域的一个新兴职业,是一种全新的工作方式和思维模式。更重要的是,我们也在探讨一个更广泛的社会话题:随着AI技术的不断发展,未来职业还将如何演变?人类工作者将如何与智能系统协作?我们如何确保技术的发展能够符合伦理标准,促进社会的可持续发展?。
2024-10-12 11:14:51
1218
原创 Agent的四种设计模式,从零实现Agent框架
让大模型返回json格式,方便直接处理数据。但在使用时,需要指定json字典的key,否则这个key就是随机的。指令遵循还不错的:大模型agent的框架是否需要,这个问题比较纠结。现在流行的langchain以及更高级的crewai,对大模型做了很多抽象和封装。除了一些tool有用——但这些tool可以拆分出来。但agent之前的关联,其实本质上还是线性的,就是指望大模型去分拆步骤,然后自主完成任务,目前看还有难度。
2024-10-12 10:47:12
651
原创 一文讲明白初学者怎么入门大语言模型(LLM)?
关于如何入门LLM,大多数回答都提到了调用API、训练微调和应用。但是大模型更新迭代太快,这个月发布的大模型打榜成功,仅仅过了一个月就被其他模型超越。训练微调也已经不是难事,有大量开源的微调框架(llamafactory、firefly等),你只要懂部署,配置几个参数就能启动训练。甚至现在有大量云上项目,你根本不需要部署,直接上传数据,就能启动。这我让想起来之前的算法工程师都被调侃成调参师,新出一个大模型,下载下来跑一遍,运行一遍,对于自己理解和入门大模型没有任何意义。
2024-10-11 11:24:05
1034
原创 还有必要做大模型微调吗?到底选择LoRa还是RAG?
你是否需要一个能够模仿特定人物或服务于特定受众的聊天机器人?通过使用定制数据集对LLM进行微调,我们可以使其响应更加贴近受众的具体要求或预期体验。例如,你可能需要将输出结构化为JSON、YAML或Markdown格式。微调可以用来纠正那些通过提示工程和上下文学习难以修正的错误。它还可以增强模型执行新技能或任务的能力,这些任务在提示中难以表达。例如,Phi-2在金融数据分析上的准确率从34%提高到了85%,而ChatGPT在Reddit评论情感分析上的准确率提高了25个百分点。
2024-10-10 10:51:41
950
原创 2024想转行做大模型产品经理?看这份指南就够了!
转行做大模型所面临的机会和挑战,以及如何把握和应对,如:大模型是AI领域的一个重要趋势,具有强大的泛化能力和适应能力,在多个任务和领域上表现出惊人的成就。大模型可以利用海量的数据来学习通用的知识和能力,从而在多个场景和需求上提供高效的解决方案。大模型可以带来更好的用户体验和商业价值,在各个行业和领域中创造更多的创新和变革转行做。大模型需要海量的数据和计算资源来训练和运行,对于硬件设备、网络带宽、存储空间等方面有很高的要求。
2024-10-10 10:44:13
1437
原创 Meilisearch 和 Ollama 实现文本向量搜索
Meilisearch 是一个开源、快速、简洁的全文搜索引擎,专为构建高性能、实时的搜索功能而设计。其主要特点如下:极速搜索:Meilisearch 使用反向索引来加速搜索查询,因此能够在海量数据中提供毫秒级的响应时间,尤其适合实时搜索需求。智能搜索:Meilisearch 支持模糊搜索、拼写纠错、同义词匹配、结果排序等功能,使得用户在搜索时无需提供完全准确的关键词。即时更新:它支持对数据的实时更新,任何数据变动都会立即反映在搜索结果中,适合频繁变动的数据集。
2024-10-09 15:23:50
1128
原创 RAG系统的7个检索指标:信息检索任务准确性评估指南
信息检索任务中使用的检索指标(本文的讨论重点)专注于评估生成内容流畅性、相关性和语义相似性的指标,如BLEU、ROUGE、METEOR等随RAG应用发展而演变的特定指标RAG的检索组件可以独立评估确定检索器满足用户查询的能力。我们将详细介绍七个广泛应用于RAG、搜索引擎、推荐系统等信息检索任务的重要指标。注:在RAG中,知识库是一个核心概念。它是一个非参数记忆存储,用于存储RAG系统将处理的所有文档。
2024-10-09 10:32:41
313
原创 大模型面试八股+答案,LLM-offer手到擒来!
比如,如果题目问到“大模型的优势和劣势”,你就要分别列举出来,并提供具体例子来支持你的论点。大模型八股文常常需要有清晰的结构,让你的回答更有条理,让面试官一目了然。[x] 大模型(LLMs)agent 面。[x] 大模型(LLMs)强化学习面。[x] 大模型(LLMs)训练集面。[x]大模型(LLMs)显存问题面。[x] 大模型(LLMs)基础面。[x] 大模型(LLMs)进阶面。[x] 大模型(LLMs)微调面。[x] 大模型(LLMs)推理面。[x] 大模型(LLMs)评测面。🔍 第一关:了解题目。
2024-10-08 11:25:20
360
原创 深度优化TorchRec:提升PyTorch推荐系统性能
本文将分享对 PyTorch 上的推荐系统库 TorchRec 的优化工作。TorchRec 是 PyTorch 官方开发的,支持在 PyTorch 上做大规模 embedding 的一个推荐系统训练库。上图展示了 TorchRec 的整体架构,包括三层。最上层是 TorchRec 的 API,主要提供一些简单易用的 wrapper,用户可以很轻松地利用这些 API 来配置不同的 embedding,去做 sharding,在 training 当中做流水线的工作。
2024-10-08 09:30:05
1006
原创 面试问我LLM中的RAG,秒过!!!
本篇文章涉及了 RAG 流程中的数据拆分、向量化、查询重写、查询路由等等,在做 RAG 的小伙伴一定知道这些技巧的重要性。本文是对检索增强生成(Retrieval Augmented Generation,RAG)技术和算法的全面研究,对各种方法进行了系统性的梳理。文章中还包含了我知识库中提到的各种实现和研究的链接集合。鉴于本文的目标是对现有的 RAG 算法和技术进行概览和解释,我不会深入代码实现的具体细节,只会提及相关内容,并推荐阅读详尽的文档和教程[1]。
2024-10-07 11:15:14
1191
原创 一种将RAG、KG、VS、TF结合增强领域LLM性能的框架
SMART-SLIC框架:旨在将结合(Knowledge Graphs)和(Tensor Factorization)来增强的大型语言模型(LLMs)的性能。SMART-SLIC框架中的RAG实现依赖于知识图谱(KG)和向量存储(VS)来提供结构化和非结构化的领域特定信息。当用户提出问题时,LLM首先将查询转化为向量嵌入,然后与现有文本进行比较以找到最相似的文本。检索到的信息被添加到原始查询中,LLM利用这些上下文信息生成相关答案。最后,LLM以自然语言构建最终答案,向用户解释答案。
2024-10-07 09:51:52
679
原创 爆赞!豆瓣9.6,多语言版本全球发行,程序员入门大模型必读之作!
在本书中,你将先探索生成式AI的概念及其在产品和服务中的应用潜力,了解生成式AI项目的完整生命周期。它不仅为初学者提供了一条清晰的学习路线,帮助他们全面理解这个技术领域的深度和广度,同时也为那些想要在AWS上打造强大、灵活的生成式AI应用的专业人士,提供了深入的行业洞察和具体的操作指南。《生成式AI入门与AWS实战》的多语言版本,是知识共享精神的体现,也是对全球开发者社区的一份贡献。本书不仅以其深刻的见解和实用的指导赢得了英语读者的青睐,更通过多语言版本的推出,向世界证明了它的价值和影响力。
2024-10-06 11:22:22
1151
原创 打造银行智能营销助手:大模型助力精准营销
银行智能营销助手的崛起标志着金融行业的营销方式正经历着一场深刻的变革。通过结合知识图谱与大模型,智能营销助手不仅能够帮助银行更加精准地获取客户、提升营销效率,还能够为客户提供更高质量的个性化服务。随着AI技术的不断发展,银行智能营销助手必将成为未来银行营销不可或缺的重要工具,推动整个金融行业的智能化转型。。
2024-10-06 09:38:35
800
原创 一文彻底搞懂大模型 - LLM四阶段技术
设计和优化输入给大型语言模型(LLM)的文本提示(Prompt)**的过程。这些提示旨在引导LLM生成符合期望的、高质量的输出。
2024-10-05 09:00:00
843
原创 一个 Prompt 搞定所有架构图和思维模型
相信对 AI 关注紧密的朋友们,对于最近 prompt 的新玩法并不陌生,比如下图的汉语新解:这是由博主李继刚使用 Claude 3.5 制作,能达到这样的效果,除了 Claude 模型能力提升(推出 Artifacts 功能 )。还得是继刚兄对 prompt 制作有深刻理解和丰富经验,毕竟这么多人,也只有他再一次在 prompt 领域玩出了花,上一次是去年 GPT 4 发布的时候。每一次模型能力的提升就是给玩家们提供开辟新大陆的机会,前行者们在探索和试错,不断发现新的可能与方向。
2024-10-04 09:00:00
738
原创 我尝试了LangGraph Studio的AI Agent功能
在使用LangGraph Studio之后,我相信它在Agent开发方面是一个巨大的进步。它通过让过程更加可视化、互动性更强、迭代更迅速,帮助开发者构建更好的Agent。虽然这个工具还处于早期阶段,但其潜力不容忽视。随着LangGraph Studio的逐步完善,它将成为任何认真开发AIAgent的人的必备工具。正如代码编辑器彻底改变了软件开发,LangGraph Studio也有可能革新我们创建和部署智能Agent的方式。
2024-10-03 09:00:00
947
原创 如何使用Optuna在PyTorch中进行超参数优化
首先,我们将导入相关的包,并使用PyTorch创建一个简单的全连接神经网络。该全连接神经网络包含一个隐藏层。为了保证可复现性,我们还设置了一个手动随机种子。接下来,我们将设置超参数优化所需的标准组件。我们将执行以下步骤:1.下载FashionMNIST数据集。2.定义超参数搜索空间:我们定义(a)想要优化的超参数,以及(b)允许这些超参数取值的范围。在我们的例子中,我们将选择以下超参数:神经网络隐藏层大小——整数值。学习率——对数分布的浮点值。
2024-10-02 18:31:26
1171
原创 浪 得 虚 名 ?RAG接入知识图谱!全局数据关系表示!指哪打哪!
学会这部分,你更能体会到RAG中,为什么难做,雄哥不会深入太多,但每个人都需要懂!我在知识图谱课程反复强调!
2024-10-01 13:45:51
820
原创 首个检索增强3D生成模型!实现各种模态生成大一统:文&图&3D都可以
3D生成也能支持检索增强(RAG)了。有了检索到的参考模型之后,3D生成效果更好,还具有极强的泛化性和可控性。比如像这张,它生成几何质量得到了极大的改善。还可以实现主题一致的3D到3D生成,仅需自参考输入的3D模型即可支持该功能。之前的相关研究需要约1小时,现在压缩不到10秒。来自香港城市大学、上海人工智能实验室、香港中文大学和南洋理工大学S-Lab的研究人员提出了一种名为Phidias的新3D生成框架。该框架将语言和图像生成领域中常见的检索增强生成(RAG)引入3D生成。
2024-09-30 09:15:00
692
原创 2024年最火IT岗——AI大模型开发工程师,月薪25k都算低的
目前,已经可以说人工智能(AI)是推动社会进步和产业升级的重要力量。其中,AI大模型作为人工智能领域的核心技术之一,正引领着新一轮的技术革命。2024年,AI大模型开发工程师无疑成为了IT行业中最炙手可热的岗位之一,这不仅是市场需求的直接反映,更是AI技术发展的必然结果。Let’s go!根据北京大学国家发展研究院与智联招聘联合发布的《AI大模型对我国劳动力市场潜在影响研究:2024》报告,AI大模型相关岗位的需求显著增加,特别是自然语言处理(NLP)和深度学习领域的岗位,招聘需求翻倍增长。
2024-09-29 16:18:19
754
原创 CrewAI+LlamaIndex实现金融分析师Agent探索
CrewAI是一个创新的开源框架([Multi-Agent架构-CrewAI详解]),它允许用户利用智能代理的协作能力来完成复杂任务。与传统的聊天机器人不同,CrewAI中的代理能够相互协作、交换信息,并以团队的形式解决复杂问题。这种协作原则在AI领域的应用,使得CrewAI能够模拟一群专家协同工作的场景,每个成员都拥有独特的专长和知识,通过有效的沟通和任务分配,实现超越个体能力的成果。LlamaIndex是另一个用户友好的框架,它支持开发者利用自己的数据轻松构建基于LLM(大型语言模型)的应用程序。
2024-09-29 11:40:56
1144
原创 我为什么要转行做大模型?
最近研究了一下大模型相关的内容,决定从互联网的转行做大模型推理工程化相关的工作。所以简单说说我在这个决定中的思考过程。我本来是一个在大厂做推荐算法的工程师。收入在行业里面算是中游水平, 就这么一直干着似乎也没什么问题。但是互联网行业的岗位毕竟和公务员和事业单位比,不存在一个工作干一辈子的情况。这个工作能不能继续干完全取决于市场对于这个岗位有没有需求。但是推荐算法今年的情况就是,流量增长见顶,需求萎靡。
2024-09-28 11:33:10
1125
原创 基于 LangChain 的自动化测试用例的生成与执行
自动化测试用例的生成与执行的实现原理。自动化测试用例的生成与执行的实现思路。利用 Agent 实现自动化测试用例的生成与执行。。
2024-09-28 09:48:11
1035
原创 全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)
令人兴奋的消息,Meta发布了Lllam3.2系列模型,当前的基准显示,Llama 3.2 在各种基准测试中表现优于 Claude3.5 Haiku 以及 GPT-4o-mini;加上前几天的Qwen2.5,这是他们的第1次开源多模态大模型,总共有4个;其中两个是视觉模型(11B、90B)。90B可能是目前最大的视觉模型了,我记得前面一个比较大的是剩下的两个是1B和3B的,这些模型专为边缘计算和移动设备优化,支持 128k 令牌,擅长任务如摘要和遵循指令,针对各种处理器进行了优化。
2024-09-27 10:06:25
2710
原创 建筑设计师10问,如何快速转行做产品经理?我的回答是:
传统建筑行业已经没落了,我这代年轻人现在入行进去做现场施工以及项目管理真的很难,老人们倚老卖老自以为是,项目上各种人员的人情世故以及潜规则,都让各种工作推进变得非常困难。行情不好的的加持下,甲方无法付工程款,大家都发不出工资,一年到头投入了别的行业几倍的精力去工作收入却只是一场空,身体健康与私人时间也全部搭进去了,真的觉得这个行业没有做下去的必要了。”这是一个建筑行业的从业者,发给我的信息,那天深夜读完这封邮件的时候,我的内心,五味杂陈,我知道当他写下这些文字的时候,内心肯定是非常难受的。虽然我没有在建筑行
2024-09-27 10:01:06
1007
原创 每日 GitHub 探索|构建强大 LLM 管道和优化 AI 聊天框架
1.DSPy:利用程序优化基础模型🏷️仓库名称:stanfordnlp/dspy🌟截止发稿星数: 17127 (今日新增:64)🇨🇳仓库语言: Python🤝仓库开源协议:MIT License🔗仓库地址:https://github.com/stanfordnlp/dspyDSPy 提供了声明性模块和优化器,使用户能够以声明性方式定义其程序的逻辑流。优化器使用各种技术(例如贝叶斯优化和签名优化)来调整模型的参数并提高性能。GitHub 存储库包含 DSPy 的源代码、文档和教程。源代码
2024-09-26 10:37:14
1238
原创 chatgpt复旦大学张奇老师《自然语言处理导论》AI好书PDF分享,不看后悔一辈子!
它融合了语言学、计算机科学、机器学习、数学、认知心理学等多学科内容,涉及从字、词、短语到句子、段落、篇章的多种语言单位,以及处理、理解、生成等不同层面的知识点,研究内容涉及的知识点多且复杂。自20世纪90年代以来,自然语言处理发展迅猛,各类任务和算法和研究范式层出不穷,在搜索引擎、医疗、金融、教育、司法等众多领域展示出重要作用。这部分主要介绍自然语言处理的应用任务和相关技术,如信息抽取、机器翻译、情感分析、智能问答、文本摘要和知识图谱等。这部分着重讨论基于机器学习的自然语言处理模型的稳健性和可解释性问题。
2024-09-26 10:24:08
524
原创 RAG排序 | (SIGIR 24)利用大语言模型进行无监督密集检索器排序
该论文提出了一种名为LARMOR的方法,用于在零样本场景下选择最适合目标集合的密集检索器(Dense Retriever,DR)。实验主要验证LARMOR在各种数据集上的性能,并与现有方法进行对比。此外,还探究了LARMOR各组件的作用以及不同LLM配置对性能的影响。本论文针对密集检索器(Dense Retriever, DR)选择问题,提出了一种名为LARMOR(Large Language Model Assisted Retrieval Model Ranking)的无监督方法。
2024-09-25 10:20:30
850
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅