自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(227)
  • 收藏
  • 关注

原创 大模型提示词工程和落地思考

之前的其他算法比如贪心算法,波束算法等效果不佳,openai 在 gpt2 中使用问题和 top-k 获得了更好效果。仅仅是目前的一个工程实践。

2024-08-24 12:01:51 375

原创 大模型时代,什么样的算法工程师更吃香?

上面在说各个方面特点的时候,你应该就可能知道我为啥觉得“预训练>>应用数据>对齐>推理>微调”了。因为掌握预训练的人才较少,毕竟物以稀为贵;而数据由是大模型的重点,毕竟有多少数据就有多少智能嘛;对齐主要是很多场景真没必要,毕竟我是做ToB较多,认知也许比较狭隘了;推理其实主要是很多开源框架已经支持的很好了,感觉对于很多厂商来说也许开源就够用了;微调到现在这个阶段,真快成为了有手就行;各大公司已经不在无脑砸钱做底层训练,大模型应用落地、变现是现在的重点。

2024-08-24 12:00:24 675

原创 RAG优化技巧 | 7大挑战与解決方式 | 提高你的LLM: 下篇

本文探讨了使用RAG技术时可能面临的七大挑战,并针对每个挑战提出了具体的优化方案,以提升系统准确性和用户体验。• 缺失内容:解决方案包括数据清理和提示工程,确保输入数据的质量并引导模型更准确地回答问题。• 未识别出的最高排名:可通过调整检索参数和优化文件排序来解决,以确保向用户呈现最相关的信息。• 背景不足:扩大处理范围和调整检索策略至关重要,以包含更广泛的相关信息。• 格式错误:可以通过改进提示、使用输出解析器和Pydantic解析器实现,有助于按照用户期望的格式获取信息。

2024-08-23 11:42:24 506

原创 RAG优化技巧 | 7大挑战与解決方式 | 提高你的LLM :上篇

在当今快速发展的人工智能领域,大型语言模型(LLM)已经成为无处不在的技术,它们不仅改变了我们与机器交流的方式,还在各行各业中发挥着革命性的影响。然而,尽管LLM + RAG的能力已经让人惊叹,但我们在使用RAG优化LLM的过程中,还是会遇到许多挑战和困难,包括但不限于检索器返回不准确或不相关的数据,并且基于错误或过时信息生成答案。因此本文旨在提出RAG常见的7大挑战,并附带各自相应的优化方案,期望能够帮助我们改善RAG。下图展示了RAG系统的两个主要流程:检索和查询;

2024-08-23 11:39:21 697

原创 利用 coze + agent 落地企业级 AI 知识库方案

简单来说就是当我们的任务、或者需求过于复杂,一个大语言模型已经无法完成的时候,我们便需要尝试拆分我们的需求,并进行流程编排,然后让多个大模型相互协同,帮助我们完成该任务。所以我们实现agent智能体的方式是:workflow工作流;多个大语言模型协同工作,我们称之为智能体。

2024-08-22 11:21:29 844

原创 让AI转化为生产力,Dify 私有化部署 + 接入Ollama部署本地模型。

工欲善其事,必先利其器。AI 是未来十年生产力的核心工具,要让 AI 真正转化为生产力,而不仅仅是围观一时的热潮。如果你对 AI 也很感兴趣,欢迎关注,共同探索 AI 的无限可能,与渔夫一起成长!今天聊聊AI智能体,同时也简单的将 Dify 本地私有化部署,接入 Ollama 部署的本地模型。AI智能体是什么?AI智能体是一种具备AI能力、感知、推理、决策和行动能力的计算系统,它能够自主与环境交互,完成特定任务。

2024-08-22 11:13:02 1343

原创 万字长文,大模型的模型压缩及效率推理综述

本文对大型语言模型的压缩和效率推理进行了综述。大型语言模型基于Transformer架构,具有强大的性能,但也带来了巨大的内存和计算成本。本文从算法角度对大型语言模型的压缩和效率推理方法进行了分类,包括量化、剪枝、知识蒸馏、紧凑架构设计和动态网络。大型语言模型有两个显著特点:(1)大多数压缩算法需要在压缩后对模型进行微调和甚至重新训练,而大型模型的微调和训练成本非常高。因此,许多算法,如量化和剪枝,开始探索免调优算法。(2)大型模型强调通用性和泛化能力,而非单一任务的性能。

2024-08-21 11:27:28 704

原创 LLM | 面向对话式医疗健康场景的医疗大模型

近日,复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源了一个专门针对医疗健康对话式场景而设计的医疗领域大模型:DISC-MedLLM。

2024-08-21 11:23:21 1457

原创 【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战

上下文长度为 8192 个 token使用旋转位置嵌入(RoPE)近似 GeGLU 非线性局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。Logit软封顶。根据Gemini 1.5的方法,研究团队在每个注意力层和最终层限制logit,使得logit的值保持在−soft_cap和+soft_cap之间。

2024-08-20 11:36:02 919

原创 【机器学习】Qwen2大模型原理、训练及推理部署实战

Qwen2对比Qwen1.5模型尺寸:将Qwen2-7B和Qwen2-72B的模型尺寸有32K提升为128KGQA(分组查询注意力):在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,提供GQA加速推理和降低显存占用分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

2024-08-20 11:32:39 792

原创 为视觉语言多模态模型进行偏好优化

训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项,通常可以简化这一过程,并产出更准确的结果。通过对候选回答的对比和排序,而不是赋予固定的标签,偏好优化使得模型能更高效地捕捉人类偏好中的细微差别。偏好优化已经在大语言模型中广泛使用了,但现在,它也可以用在视觉语言模型 (VLM) 上。

2024-08-19 14:33:01 909

原创 多模态大语言模型(MMLLM)的现状、发展和潜力

随着ChatGPT流行,大模型技术正逐渐成为AI领域的热点。许多行业大佬纷纷投身于这一赛道,展示了大模型的独特魅力和广阔前景。,前美团联合创始人,发起“AI英雄帖”。,出门问问创始人,打造中国版OpenA。和,前亚马逊员工,师徒俩携手大模型创业。,前京东AI部门负责人,强调大模型并非大公司专属。,前搜狗CEO,认为OpenAI的成功是技术理想主义的胜利。,快手前AI核心成员,投身于大模型赛道。,阿里巴巴VP,专注构建大模型基础设施,已完成首轮融资。

2024-08-19 14:27:54 854

原创 仅需1% Embedding参数,硬件成本降低十倍,开源方案单GPU训练超大推荐模型

深度推荐模型(DLRMs)已经成为深度学习在互联网公司应用的最重要技术场景,如视频推荐、购物搜索、广告推送等流量变现业务,极大改善了用户体验和业务商业价值。但海量的用户和业务数据,频繁地迭代更新需求,以及高昂的训练成本,都对 DLRM 训练提出了严峻挑战。在 DLRM 中,需要先在嵌入表(EmbeddingBags)中进行查表(lookup),再完成下游计算。嵌入表常常贡献 DLRM 中 99% 以上的内存需求,却只贡献 1% 的计算量。

2024-08-16 12:01:37 801

原创 非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。今天,阿布扎比技术创新研究所(TII)发布了一个。

2024-08-16 11:58:14 873

原创 探索PyTorch的注意力机制与Transformer实现

自从Attention机制被引入自然语言处理领域以来,它已经成为了深度学习的核心技术之一。Attention机制能够有效地解决序列到序列的问题,如机器翻译、文本摘要等。在2017年,Vaswani等人提出了Transformer架构,它完全基于Attention机制,并且在多种自然语言处理任务上取得了State-of-the-art的成绩。PyTorch是一个流行的深度学习框架,它提供了丰富的API和库,使得实现Attention机制和Transformer架构变得更加简单和高效。

2024-08-15 11:21:51 808

原创 用「画家流水线」的方式理解Transformer中间层

将上述所有实验结果放到同一张图中(图11),我们就能比较不同变体对模型性能的影响程度。左图(Llama2)取各基准的中值,右图(BERT)取各基准的平均值「随机化层顺序」和「循环并行」分别在Llama2和BERT-Large上造成了最少的性能下降,「中间重复」方案(用中心层运行多次代替整个中间层)则在两个模型上都造成了最严重的滑坡。讨论自从Transformer发布后,大多数工作都在关注架构的修改和优化,以达到性能提升或参数减少。这篇论文则提供了另一种视角,调查了层并行化和重用的影响。

2024-08-15 11:19:10 722

原创 又有人将Transformer可视化了,可交互、有源码

为什么说“又”呢?因为前面已经分享过一个可视化工具了,与那个工具相比,今天分享的Transformer Explainer更直观、交互性更强。在线地址:https://poloclub.github.io/transformer-explainer/源码:https://github.com/poloclub/transformer-explainer论文:https://arxiv.org/pdf/2408.04619。

2024-08-15 11:17:37 1086

原创 超简单!手把手教你AI 大模型的训练过程

之前有小伙伴私信我,想了解下大模型比如 chatGPT 是如何进行训练的。和他们聊了一下,发现有一个点一直在困惑着大家,那就是——今天就简单来聊一下这个问题。事实上,很多自然语言处理(NLP)的模型,尤其是上文提到的大语言模型(如GPT系列),都是通过的方式进行训练的。也就是说它们不需要人工标注的标签来进行训练。试想一下,训练 GPT 的数据样本大多来自于互联网,如果需要对这些数据进行标注的话,会花费大量的人力,并且很多长文本是没有办法或者很难去标注的。

2024-08-14 11:45:37 539

原创 单卡 3 小时训练专属大模型 Agent:基于 LLaMA Factory 实战

的知识,大大降低了生成中的幻觉(hallucination)现象,使 LLM 的任务解决能力得到长足的提升。工具调用能力的获得离不开模型微调,尽管使用 ReAct 提示。

2024-08-14 11:44:18 1089

原创 如何用 LangChain 实现一个Zero Shot智能决策器(附源码)

最近一直在研究Agent和Tool的使用,今天给大家带来一篇何枝大佬(知乎@何枝)的文章《如何用LangChain实现一个Zero Shot智能决策器》,并附上源码。知乎:https://zhuanlan.zhihu.com/p/627333499LangChain是当下非常热门的一个库,其通过融合LLM的强大能力能够让我们快速地搭建一个具备 “思考能力” 的AI助手。在今天的文章中,我们将侧重于讲解:LangChain是如何进行自我思考并做出决策的。官方文档:LangChain 0.0.160。

2024-08-13 11:40:28 996

原创 深入剖析大模型安全问题:Langchain框架的隐藏风险

随着大模型热度持续,基于大模型的各类应用层出不穷。Langchain 作为一个以 LLM 模型为核心的开发框架,可以帮助我们灵活地创建各类应用,同时也为大模型的应用引入新的安全隐患。从今年 4 月 Langchain 被爆出在野 0day 漏洞开始,各类安全问题不断出现。腾讯安全平台部将持续关注大模型的应用安全,详细解读在大模型应用时代,如何与时俱进地保持安全策略,以保障大模型安全、可靠地应用。注:可导致大模型被入侵,模型被窃取。

2024-08-13 11:39:01 1061

原创 人工智能在网络安全威胁测试中的应用:LLMs如何改变网络威胁格局

本文通过初步探索和实验验证了LLMs在网络安全威胁测试中的应用潜力。我们发现LLMs能够自动化决策过程,提供高质量的响应,并在一定程度上提升防御系统的能力。然而,我们也意识到LLMs技术的滥用风险和对未来网络安全威胁格局的潜在影响。未来的研究需要进一步探讨LLMs在更复杂网络环境中的应用能力,以及如何负责任地使用这些技术来增强网络安全。通过本文的研究,我们希望能够激发更多关于LLMs在网络安全中应用的讨论和研究,推动该领域的发展,并为未来的网络安全防护提供新的思路和方法。​。

2024-08-12 13:37:48 720

原创 LLMs 大语言模型如何在NLP基础任务的落地?也许你应该看看这个

进一步的,我们加入类别词,进行预测,因为我们需要做的识别是人物person识别,因此我们可以将person类别相关的词作为token_list1,如[“person”,“man”],其他类型的,作为其他词语,如token_list2为[“location”,“city”,“place”]),而在其他类别时,也可以通过构造wordlist字典完成预测。其中,每个文本都描述了一个任务或操作,每个领域表示这个任务或操作所涉及的领域,每个实体映射列出了在每个文本中出现的实体及其对应的类型。

2024-08-12 13:36:18 938

原创 给大模型新人的经验,刷到少走三年弯路!

大家好这篇文章,我将结合自己在大模型领域的经验,给大家详细聊聊新人应该如何转行大模型赛道?比如大模型都有哪些方向?各方向的能力要求和岗位匹配?新手转行大模型常踩的坑和常见的误区?以及入行大模型最顺滑的路径?如果你是正打算入行大模型的校招/社招同学,请一定看完,可能会让你在入行大模型的路上,少走很多弯路。01大模型都有哪些方向?如果你在求职网站搜索"大模型"关键词,看一下招聘 JD,基本可以了解现在业内对大模型工程师的需求方向和能力要求.。总结一下,大致可以分为 4 类:02大部分新手的误区如果是你,看到这几

2024-08-10 11:58:23 692

原创 四种产品经理成长框架,这种尤其危险……

产品管理是一门奇怪的学科。产品经理负责的活动和工作是不断变化的。它是组织中定义最少的角色之一。产品管理不是学校中专门设置的专业,大多数产品经理最终都从事各种学科领域的工作。因此,无论你是计算机科学、工业设计、英语还是政治学专业,产品经理都是你可以考虑跳槽的角色。成为产品经理后,你的成长和成功取决于许多不同的因素。作为产品负责人,你身兼数职——设计、工程、法律、销售、营销等等。人们希望不断地获取这些领域的信息,通过学习,解决复杂的问题。最终成为产品经理的基本必需品质之一是。

2024-08-10 11:54:01 1142

原创 掌握 Llama 3.1:轻松本地部署与远程使用的全攻略

Llama 3.1 是 Meta(Facebook 的母公司)发布的一系列最先进的开源大语言模型。Llama 3.1 系列包括 8B(80 亿参数)、70B(700 亿参数)和 405B(4050 亿参数)模型。其中,405B 是 Meta 迄今为止最大的模型。本地部署的硬件要求,请确认您的硬件是否能够正常运行,以免浪费时间Windows:3060以上显卡+8G以上显存+16G内存,硬盘空间至少20GMac:M1或M2芯片 16G内存,20G以上硬盘空间llama3.1-8b,至少需要8G的显存。

2024-08-09 10:43:48 1574

原创 大模型结构的进化:LLaMA 3.1结构及影响解析

LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5,这算是开源届的大事,技术报告接近100页,信息很丰富,粗略看了一下,很有启发。这里就LLaMA 3的模型结构、训练过程做些解读,并对其影响、小模型如何做、合成数据等方面谈点看法。

2024-08-09 10:41:31 790

原创 ACL 2024 | BPO:灵活的 Prompt 对齐优化技术

并非所有人都熟知如何与 LLM 进行高效交流。于是有了 「Prompt工程师」这一岗位,专门撰写适配 LLM 的 Prompt,从而让模型能够更好地生成内容。这也是大模型研究中非常重要的问题,无论是 GPT 还是 Claude,在对齐技术上花费大量的时间与精力。但,随着模型规模变大,基于训练的对齐技术也需要耗费更大量的资源。因此,我们提出另外的一种方案,即,通过优化用户指令,从输入角度对模型进行对齐。这种方法可以在不对 LLM 进行训练的情况下,大幅提升与人类偏好的对齐程度。

2024-08-08 11:42:28 745

原创 实战:手把手教你Prompt到底该怎么写

下面展示一个实际用例:假设你是一名社交媒体经理,你需要帮助起草一篇Facebook帖子来宣传公司的新产品。在Facebook上写一篇文章,为我公司的新产品做广告。我的公司名为Alpha,产品名为Beta,是一种新型超快速吹风机。介绍Alpha公司革命性的Beta吹风机!(上下文)我想为我公司的新产品做广告。我的公司名叫Alpha,产品名叫Beta,是一种新型超快吹风机。(目标)为我创建一个Facebook帖子,目的是让人们点击产品链接购买它。(风格)效仿戴森等宣传类似产品的成功公司的写作风格。

2024-08-08 11:40:39 1208

原创 解构思维之链、树与图:我们该如何优化大语言模型的推理能力?

从 Chat 到推理,大模型的发展从直接的一问一答逐渐走向了通过中间步骤来引导大模型走向问题最终答案的方向,大家耳熟能详的工作譬如思维链(CoT)、思维树(ToT)、思维图(GoT),以及众多 AI Agent 的工作譬如 AutoGPT、ReAct 以及 LLMCompiler等等。如果为这一系列工作加上一条时间轴,那么可能会如下图所示,区别于直接的从 Input 到 Output 的输入输出,可以明显的看到复杂的“图形结构”,也就是这里所说的推理拓扑的形成。

2024-08-07 11:32:44 973

原创 一行代码提高大模型10%性能,开发者:免费午餐

大模型微调有“免费的午餐”了,只要一行代码就能让性能提升至少10%。在7B参数量的Llama 2上甚至出现了性能翻倍的结果,Mistral也有四分之一的增长。虽然这种方法用在监督微调阶段,但RLHF模型也能从中受益。来自马里兰州大学、纽约大学等机构的研究人员提出了名为NEFT(une)的微调方式。这是一种新的正则化技术,可以用于提高微调监督(SFT)模型的性能。这种方法已经被HuggingFace收录进了TRL库,只要import再加一行代码就能调用。

2024-08-07 11:31:05 1232

原创 医疗健康领域AIGC“最强外挂”?企业级RAG技术应用与展望

随着生成式人工智能技术的快速发展,其在医疗健康领域的应用备受关注。

2024-08-06 11:33:59 905

原创 RAG:如何从0到1搭建一个RAG应用

检索增强生成)是一种强大的工具,整合了从庞大知识库中检索到的相关信息,并以此为基础,指导大型语言模型生成更为精准的答案,从而显著提升了回答的准确性与深度。2020 年,Meta AI 研究人员提出了RAG的方法,用于提高 LLM 在特定任务上的性能。信息滞后:LLM 的知识是静态的,来源于当时训练时的数据,也就是 LLM 无法直接提供最新的信息。模型幻觉:实践表明,当前的生成式 AI 技术存在一定的幻觉,而在一些常见的业务应用中,我们是希望保证事实性的。私有数据匮乏。

2024-08-06 11:32:05 1093

原创 以知识图谱结构为Prompt框架,帮LLM快速找出因果关系生成更精准内容

因果关系提取一直是LLM领域一个热门的研究方向,正如我上一篇文章中介绍的,我们在制定决策和科学研究时,往往需要LLM具有非常稳健的因果推理能力。幸运的是,恰巧知识图谱结构作为Prompt(“KG Structure as Prompt”)能够很好的完成这一任务。我们就上篇文章例子继续深入分析一下,开始我们今天的介绍:第一步:给一个和上一篇用C2P因果推理链相关的题目:分析"Prompt 工程师: AI 时代最后的守门人还是第一批被淘汰者?"与"AI 取代人类工作"之间的关联度和潜在影响。

2024-08-05 11:57:50 1696

原创 5种搭建LLM服务的方法和代码示例

当涉及到服务大型语言模型(llm)时,有各种各样的方法可以选择:对喜欢本地服务器设置的人来说,使用带有CPU的Anaconda提供了较低的进入门槛,gpu加速的Anaconda环境可以缓解延迟问题,但它仍然面临可伸缩性和对本地资源的依赖方面的限制,特别是在处理大型llm时。Docker可以简化Python环境配置,可以适应大批量的部署。Modal提供了一种更灵活的按次付费计算解决方案,使其具有成本效益和易于设置的吸引力。AnyScale提供了较低的进入门槛对于那些追求简单的人来说是一个非常好的选择。

2024-08-05 11:55:27 664

原创 训练开销骤减,10%成本定制专属类GPT-4多模态大模型

2023 年是 AI 元年,以 ChatGPT 为代表的大语言模型 (LLM) 大火。LLM 除了在自然语言领域显示出巨大的潜力之外,也开始逐渐辐射到其他相关领域。比如,LLM 在多模态理解领域掀起了一股从传统预训练视觉语言模型 (VLM) 到基于大语言模型的视觉语言模型 (VL-LLM) 的变革。通过为 LLM 接入视觉模块,VL-LLM 可以继承已有 LLM 的知识,零样本泛化能力,推理能力和规划能力等。相关模型有 BLIP-2 [1],Flamingo [2],PALM-E 等。

2024-08-03 10:30:00 687

原创 当大模型不是问题时,如何应对 LLM 的工程化落地挑战?

在这一篇文章里,我们总结了过去几个月里,构建 LLM 应用的一些经验。而从这些经验里,我们发现了越来越多可复用的模式。我们将探索如何更好地沉淀下这些模式 ,以用于支撑更快速的 LLM 应用开发。

2024-08-02 11:52:43 739

原创 大模型优质书籍推荐!(免费分享PDF)《AI大语言模型的基础与前沿》,程序员都在看的大模型书!!!

全球首个完全自主的 AI 软件工程师上线,它是来自 Cognition 这家初创公司的产品——Devin, 这个名字也随即引爆了科技圈。话说 Devin 有多能干?它能实现端到端的完整项目开发。也就是说,只需一句指令,Devin 就可以从零构建出一个完整互联网应用,其他工作还可以自主查找并修复代码中的 bug,甚至是训练和微调自己的 AI 模型。更厉害的是,Devin 还通过了一家 AI 公司的技术面试,并且在 Upwork 上完成了实际工作。

2024-08-02 11:50:32 1104

原创 大模型提示工程(Prompt),让LLM自己优化提示词

随着大家对于prompt提问的研究以及对于高质量回答的追求,现在有一个比较热的词叫做prompt creator。Prompt Creator 实际上是使得 ChatGPT 更好的引导你去完善自己的提问,同时也完善自己的回答,更好地指导自己回答出更加令使用者满意的答案,是双向的过程。不会提问没关系,会互动即可,可以通过在互动中完善自己的提问,也能得到 ChatGPT 更具体的回答。

2024-08-01 11:01:06 765

原创 【LLM大模型】只用 5 步,每个人都能写出精准的 Prompt

Microsoft 的文档网站上有一张这样的图来总结和说明一个精准、高效、可靠的的 Prompt 应该包含哪些元素。同理,按照下图这样的说明,在 Prompt 编写的时候包含这些元素,每个人都能写出精准的,适合自己的 Prompt。​。

2024-08-01 11:00:05 413

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除