u013250861
这个作者很懒,什么都没留下…
展开
-
LLM-模型大小:GPU显卡内存大小、模型大小、精度、batch_size关系
1、训练时模型本身参数、梯度值、优化器参数值需要的内存大小为:2、 每个样本需要的内存大小():3、基于第1/2条,对于A100显卡(80GB RAM)来说,batch_size最大可以设置为50V100不支持bf16类型A100支持bf16类型优化器参数量其中,theta表示待更新的参数,g表示梯度,t表示当前的时间步,beta1和beta2分别是梯度一阶矩估计和二阶矩估计的指数衰减率,epsilon是为了数值稳定性而添加到分母的小数值。原创 2023-06-11 12:28:07 · 4242 阅读 · 1 评论 -
大语言模型:LLM-2B、LLM-3B、LLM-7B模型结构【开源模型】
这些对比可帮助你根据目标硬件与任务(推理速度、上下文长短、推理质量)选型或自定义剪枝。如需进一步探讨某一模型的微调技巧或推理显存占用,欢迎继续交流!*Query 组数 = num_key_value_heads。<头数 代表 GQA;=头数 为普通 MHA。†Falcon-7B 未在 config 显式给出 FFN 宽度;论文与官方脚本默认按 4×hidden 近似 18 176。原创 2025-05-16 12:10:15 · 28 阅读 · 0 评论 -
使用最多的工作流产品【n8n、Make、Coze、Dify、Zapier、Flowise】【2025-05-07】
原创 2025-05-07 23:38:08 · 80 阅读 · 0 评论 -
DeepSeek-V3 技术解析:多Token预测(Multi-Token Prediction, MTP)
在文献 [2] 中,作者尝试通过 MTP 技术预测未来的 2 个词元(token),并将其与推测解码相结合,结果发现第二个词元预测的接受率约为 85%~90%,这表明其 MTP 策略的生成质量稳定可靠。因此,上述多词元预测的损失函数将首先被分解为多个单词元(token)预测操作头,然后每个单词元(token)预测头会运行独立的 Softmax 来选择对应词元。此外,模型可能会出现模式奔溃(mode collapse),倾向于生成通用的、高频的词汇,而非细致的响应,从而降低输出的多样性和丰富性。原创 2025-04-27 00:10:56 · 76 阅读 · 0 评论 -
Tracing the thoughts of a large language model【追踪大型语言模型的思维】
像 Claude 这样的语言模型不是由人类直接编程的——相反,它们是在大量数据上进行训练的。在训练过程中,它们学习自己的解决问题策略。这些策略被编码在模型为每个单词执行的数十亿次计算中。对于我们这些模型开发者来说,这些策略是难以理解的。这意味着我们不理解模型如何完成它们大多数的任务。了解像 Claude 这样的模型如何思考,将使我们更好地理解它们的能力,并帮助我们确保它们按照我们的意图行事。例如:Claude 可以说几十种语言。它“脑海中”使用的是哪种语言(如果有的话)?Claude 一次写一个词。原创 2025-04-16 23:24:52 · 107 阅读 · 0 评论 -
LLM关键函数对比:训练阶段的model(),推理阶段的model(),推理阶段的model.generate()
以下是针对的详细分阶段解释与代码示例,涵盖训练、手动生成、Logits 提取和自动生成,输入均为,目标输出为。代码包含内部实现的简化逻辑。原创 2025-03-12 17:01:19 · 133 阅读 · 0 评论 -
【李开复】2025最新演讲,预判AI发展趋势,最新的AI会带来重大影响
【李开复】2025最新演讲,预判AI发展趋势,最新的AI会带来重大影响原创 2025-03-03 23:20:15 · 231 阅读 · 0 评论 -
大模型的结构化裁剪 、非结构化裁剪
以**规则的结构单元(如整层、通道、滤波器)**为剪枝对象,直接移除整个模块。例如,删除某层中50%的滤波器。:移除Transformer中的注意力头、MLP层或整个模块(如LLM-Pruner)。:保持模型结构规则性,剪枝后模型仍为稠密矩阵,可直接部署于通用硬件(如GPU)。RIA: Plug-and-Play: 一种高效的大型语言模型后训练剪枝方法。Flash-LLM:通过非结构稀疏性实现成本效益高且高效的大型生成模型推理。并非所有专家都是平等的:混合专家大型语言模型的高效专家剪枝和跳过。原创 2025-02-28 18:54:24 · 95 阅读 · 0 评论 -
编程能力暴涨!Anthropic 发布Claude 3.7 Sonnet与 Claude Code,实测效果惊艳
2025年2月25日,推出划时代的—— 全球首个混合推理模型,既能瞬间响应,又能通过“可见化思考”展现深度逻辑推演,开发者甚至可通过API精准控制其思考时长!同步亮相的命令行工具,以“终端协作代理”之姿颠覆开发流程,支持代码搜索、测试运行、提交等全栈操作,实测效率提升300%。并在 SWE-bench 与 TAU-bench 上取得好成绩。原创 2025-02-27 22:57:10 · 476 阅读 · 0 评论 -
【开源】BPO:灵活的 Prompt 对齐优化技术
并非所有人都熟知如何与LLM进行高效交流。一种方案是,人向模型对齐。于是有了「」这一岗位,专门撰写适配LLM的Prompt,从而让模型能够更好地生成内容。而另一种更为有效的方案则是,让模型向人对齐。这也是大模型研究中非常重要的问题,无论是GPT还是Claude,在对齐技术上花费大量的时间与精力。但,随着模型规模变大,基于训练的也需要耗费更大量的资源。因此,我们提出另外的一种方案,即黑盒提示对齐。原创 2025-01-19 17:44:50 · 53 阅读 · 0 评论 -
【开源】BPO:灵活的 Prompt 对齐优化技术
并非所有人都熟知如何与LLM进行高效交流。一种方案是,人向模型对齐。于是有了「」这一岗位,专门撰写适配LLM的Prompt,从而让模型能够更好地生成内容。而另一种更为有效的方案则是,让模型向人对齐。这也是大模型研究中非常重要的问题,无论是GPT还是Claude,在对齐技术上花费大量的时间与精力。但,随着模型规模变大,基于训练的也需要耗费更大量的资源。因此,我们提出另外的一种方案,即黑盒提示对齐。原创 2025-01-19 17:44:20 · 76 阅读 · 0 评论 -
对抗性提示(adversarial prompts)
ChatGPT的一个缺点是,因为模型具有所有这些防护措施,它可能会防止某些所需的行为,但在给定的。这些提示可能是重要的IP,不应该公开,因此开发人员需要考虑进行哪些强大的测试,以避免提示泄漏。请记住,即使是这个不依赖于基于指令的模型的版本,仍然容易受到提示注入的影响。上面的输出返回了可能作为提示的范例,这些范例可能是您在应用程序的提示中使用的机密信息。提示时,您可能正在考虑如何避免这种不希望的行为。这种攻击的想法是通过注入指令来劫持模型输出,以忽略原始指令并执行注入的指令,这可能会导致模型发出有害的输出。原创 2024-12-01 22:04:26 · 152 阅读 · 0 评论 -
一文讲清大模型AI应用架构
如果说2023年是模型大爆发的一年,这一年的机会主要给了大厂或者拿到大笔融资的创业者;那么2024年将是AI应用大爆发的一年,也意味着普通人有更多的机会加入这一浪潮。在讲述AI产品架构之前,我们先来看看客户的诉求。因为一切的设计都是从需求出发,AI产品也不例外。原创 2024-10-30 10:58:22 · 80 阅读 · 0 评论 -
国内大模型
https://github.com/HqWu-HITCS/Awesome-Chinese-LLM/tree/main原创 2024-10-30 10:20:27 · 70 阅读 · 0 评论 -
2023年最令人瞩目的AI产品与模型
2023年最引人瞩目的AI大模型产品和技术 | 数据学习(DataLearner)原创 2024-10-30 10:18:37 · 55 阅读 · 0 评论 -
【自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM
语言模型的规模不断扩大,这对部署带来了巨大的挑战。本文设计了一种可扩展且稳定的1-bit Transformer架构来实现大语言模型,称为BitNet。具体来说,使用BitLinear作为标准nn的替代品。实验结果表明BitNet能够显著减少存储占用和能力消耗,并且与最先进的8-bit量化和FP16 Transformer能力相当。此外,BitNet也表现出了类似于全精度Transformer的scaling law,这也表明其有潜力在保持效率和性能的同时,能够更加有效的扩展至更大的语言模型。原创 2024-10-22 02:21:39 · 165 阅读 · 0 评论 -
【手撕LLM-sMoE】离GPT4又近了一步
近期欧美当红炸子鸡Mistral.AI发布了大模型,性能接近GPT4。其背后的实现原理为MoE,本文着重讲解sMoE。综上可以写出load balancing损失项现在我们再从分布的角度上看sMoE的均衡对每个expert的gating求和得到importance,可见均衡的importance的分布是更加平缓的右边比左边更好,分布平缓,说明在一个batch中每个expert取到的均衡的,非一家独大2. 对于单个expert在不同数据上,我们期望noise的增加,能使得gating值的分布是平缓的。原创 2024-10-18 19:50:32 · 81 阅读 · 0 评论 -
SuperSonic简介
这种融合确保了Chat BI能够与传统BI一样访问统一化治理的语义数据模型。通过SuperSonic的问答对话界面,用户能够使用自然语言查询数据,系统会选择合适的可视化图表呈现结果。SuperSonic不需要修改或复制数据,只需要在物理数据模型之上构建逻辑语义模型(定义指标/维度/实体/标签,以及它们的业务含义、相互关系等),即可开启数据问答体验。与此同时,SuperSonic被设计为可插拔的框架,采用Java SPI机制来扩展定制功能。原创 2024-06-18 23:44:41 · 1962 阅读 · 0 评论 -
一文弄懂LogSumExp技巧
LSE被定义为参数指数之和的对数:输入可以看成是一个n维的向量,输出是一个标量。原创 2024-06-18 01:21:47 · 291 阅读 · 0 评论 -
找代码有神器,复现论文有妙招
大家在研究新的paper时,是否都有这样的烦恼:好不容易找到开源代码时,不知道论文中的这个部分怎么在代码中实现,现在就有一款利器,将论文和代码一一对应,每个论文部分都有对应的代码进行解释,这样理解起来是不是很畅快。原创 2024-06-10 21:26:27 · 465 阅读 · 0 评论 -
Optuna:高效易用的超参优化利器
Optuna是一个用于超参数优化的Python库,可以帮助我们自动化地选择最优的超参数组合,从而提高机器学习模型的性能。Optuna使用贝叶斯优化算法来搜索超参数空间,可以支持大部分机器学习框架,如TensorFlow、PyTorch、scikit-learn等。原创 2024-06-10 21:24:51 · 400 阅读 · 0 评论 -
GPT4O技术架构【 图像提取特征,语音提取特征后一起将特征输入给大模型,跳过语音识别步骤】
图像提取特征,语音提取特征后一起将特征输入给大模型。图像提取特征,语音识别为文字后一起输入给大模型。原创 2024-05-16 23:29:03 · 437 阅读 · 0 评论 -
基于LangChain的优秀项目资源库
在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业,LangChain是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架,可以在极短的时间内完成LLM项目,其生态系统正在快速发展。本文主要内容是一个LangChain资源库,里面罗列了大大小小很多个基于LangChain框架的优秀项目,包括低代码、服务、代理、模板等工具类,还有像知识管理、原创 2023-07-20 00:19:24 · 732 阅读 · 0 评论 -
chatGPT+Neo4j:实现基于知识图谱的精准知识问答【①利用chatGPT生成查询语句;②利用生成的查询语句查询neo4j数据库;③将查询neo4j的结果作为chatGPT的输入prompt】
prompt:这是我neo4j知识图谱结构,根据问题,写一个cypher查询语句,我希望返回的是完整的节点,而不只是节点的名字。图谱结构:(杜仲)-[杜仲_又名]-(又名);(杜仲)-[杜仲_功用]-(功用);(杜仲)-[杜仲_地域]-(地域)。问题:杜仲的又名叫什么?这个查询会匹配杜仲节点和与其关联的又名节点,然后返回这两个节点的完整信息,包括属性和关系。请确保您的数据库中已经存在这些节点和关系,然后将查询语句应用于您的Neo4j数据库。原创 2023-08-19 22:05:31 · 1120 阅读 · 0 评论 -
GPT-4+Knowledge Graph:自动构建中医药知识图谱
【代码】GPT-4+Knowledge Graph:自动构建中医药知识图谱。原创 2023-08-19 22:33:31 · 630 阅读 · 0 评论 -
中文Sentence Embeddings:text2vec-base-chinese VS OpenAIEmbedding
每条数据包含三列,分别表示 sentence1、sentence2 和相似等级(Label),相似等级范围为 0~5,从数据集中每个Label选择相同的条数,数据集中Label=5有97条,那其他Label=0、1、2、3、4我们也分别选择97条;从两张图比较直观能看到,text2vec-base-chinese跟Label的吻合度可以,在余弦相似性的区分度上更剩一筹。为了让点可以散开,如果Label是0就把x平均分布到0~1之间,是1就把x平均分布到1~2之间,以此类推;两个model分别做了个效果图,原创 2023-08-21 17:01:10 · 1369 阅读 · 0 评论 -
从LangChain+LLM的本地知识库问答到LLM与知识图谱、数据库的结合
过去半年,随着ChatGPT的火爆,直接带火了整个LLM这个方向,然LLM毕竟更多是基于过去的经验数据预训练而来,没法获取最新的知识,以及各企业私有的知识为了获取最新的知识,ChatGPT plus版集成了bing搜索的功能,有的模型则会调用一个定位于 “链接各种AI模型、工具的langchain”的bing功能为了处理企业私有的知识,要么基于开源模型微调,要么也可以通过langchain作为一种外挂的内部知识库 (类似存在本地的数据库一样)原创 2023-08-27 22:36:08 · 1701 阅读 · 0 评论 -
大模型应用一:RAG
LLM这一波,催生的技术真的很多,每一个环节,要真正做好,符合企业应用,都可以让我们研究好长一段时间,并需要不断去实践,才能打磨出精品。嗯,大模型这一波,我已经感觉到变化的发生了——了解大模型和不了解大模型的人,在AI的业务上的理解上,有某些角度来看,他们的区别真的就现代人类和史前人类一样巨大。于是,RAG被越来越多提到,包括开源的ChatPDF,也是RAG的一个经典应用。RAG最初是为了解决LLM的各类问题的(后面会提到)产生的,但后面大家发现在现阶段的很多企业痛点上,使用RAG好像是更好的解决方案。原创 2023-11-09 23:09:26 · 1213 阅读 · 0 评论 -
大模型+检索增强(RAG、Atlas 和 REPLUG)
检索增强的优势可解释性:大模型的黑箱属性,使得研究者很难以利用大模型对模型运行机理进行分析,而检索增强模型可以直接提取其检索到的文档,从而通过分析检索器所检索出的文章,可以获得对 Atlas 工作更好的理解。原创 2023-11-10 01:10:30 · 511 阅读 · 0 评论 -
一文讲清楚实用Prompt工程
prompt工程是一门相对较新的学科,用于开发和优化prompts,以有效地将LMs用于各种应用和研究主题。— from [2]考虑到正确地制作我们的提示内容对于在LLM中获得有用的结果非常重要,prompt工程在最近几个月获得了很多兴趣。然而,这是一门经验科学——发现最好的提示通常是基于启发式的,需要实验。我们可以通过跟踪发现更好的提示,并测试不同的想法,看看哪些有效。用指令提示LLM。原创 2023-11-09 23:49:50 · 360 阅读 · 0 评论 -
大模型应用中大部分人真正需要去关心的核心——Embedding
我们现在一说到大模型,往往说的就是ChatGPT、Llama,或者国产的ChatGLM、文心一言等等。但是,那些大模型一般只属于大厂,对于大部分人来说,我们更多的角色是大模型的使用者,或者是基于大模型来开发应用。大模型主要应用:这部分目前也是大模型最被人所知的应用,但chat功能我们已经有ChatGPT、Claude、文心一言、通义千问等一众产品可以用,对于大部分人来说,我们是消费者;原创 2023-11-09 23:41:44 · 1271 阅读 · 0 评论 -
高级prompt工程讲解
CoT提示是一种简单的技术,用于提高法学硕士在常识或符号推理等推理任务上的表现。CoT提示通过在提示中插入几个正在解决的推理问题的示例来利用少量学习。每个例子都与一系列的思想(或理论)相匹配,通过文本解释如何一步一步地解决问题来增加问题的答案.见下文。由于他们的few-shot学习能力,大语言模型可以通过观察CoT prompt中的示例来学习生成基本原理以及他们的答案。先前的工作表明,以这种方式生成准确的基本原理可以提高推理性能,我们在CoT提示的实验中也看到了这种效果。原创 2023-11-09 23:48:48 · 131 阅读 · 0 评论 -
HuggingFace- Datasets里的概念
Arrow让大量的数据可以被快速的处理和移动。它是一种在内存中列式存储的格式。原创 2023-10-20 20:32:24 · 263 阅读 · 0 评论 -
pip install mpi4py报错:ERROR: Could not build wheels for mpi4py, which is required to install pyprojec
在 conda 环境下。所以导致该错误的原因是。原创 2023-10-13 20:18:50 · 4563 阅读 · 1 评论 -
一文梳理推荐系统中如何应用大模型
今天给大家分享下华为诺亚方舟实验室的talk:《推荐系统如何从大语言模型中取长补短:从应用视角出发》,个人感觉很有信息量,我们组内同学也做过交流分享,相关信息也可以从综述找到:"How Can Recommender Systems Benefit from Large Language Models: A Survey",在此分享给大家。,需要通过引入推荐场景的数据,结合微调技术,为语言模型注入协同信号。代表性工作CTRL。研究怎么把推荐模型的信号引入LLM,但是不进行LLM的微调,代表性工作KAR。原创 2023-10-13 20:02:07 · 370 阅读 · 0 评论 -
大型语言模型(LLMs)的幻觉问题【Answer From chatGPT】
这些方法可以单独或结合使用,以减轻LLMs幻觉问题,提高其在各种任务和领域中的可靠性和准确性。:在预训练后,对LLMs进行微调以适应特定任务或领域的需求,可以改善其性能并减少幻觉的发生。:提供多样性的训练数据,包括不同主题、不同来源和不同观点的数据,可以帮助LLMs更好地理解和处理多样化的信息,减少幻觉的风险。:改进生成策略,例如修改解码器的温度参数,使用更复杂的抽样策略,或者在生成过程中引入约束,以减少不准确的生成。:持续监测LLMs的性能,接受用户反馈,并根据反馈不断改进模型,以减少幻觉的发生。原创 2023-09-14 15:53:04 · 405 阅读 · 0 评论 -
AI模型推理框架
四. AI模型推理框架 - 知乎原创 2023-08-31 17:38:25 · 242 阅读 · 0 评论 -
大模型相关论文100篇短笔记【 2023-04-17】
最早的做法(PLCa)输入只有C和Q,改进的做法(KAT/REVIVE)是加一个增强模块,用显式知识等用好K和V,而本文的方法Prophet是在PLCa的基础上增加了一个小模型来启发LLM,启发是通过写入prompt来进行的(few-shot模式),换句话说,其实仍然是增强prompt的方式来增强LLM的多模态处理能力。比较有趣的是,很多研究发现知识存储和整个网络的中间层有较强的联系,特别是中间层的前馈部分,这可能说明整个网络结构确实可能类似于:低层做初级表示,中层形成知识,高层决定输出。原创 2023-08-28 21:08:42 · 426 阅读 · 0 评论 -
LLM:可控文本生成【Controlable Text Generation(CTG)】
Controlable Text Generation,可控制的文本生成,就是能够在传统的文本生成的基础上,增加对生成文本一些属性、风格、关键信息等等的控制,从而使得生成的文本符合我们的某种预期。如果给一个明确的定义的话,文中引用了另一篇更早的综述的定义:论文中给出了两个简单的例子:第一个例子就是给定一个故事线,要求模型按照这样的思路去生成。第二个例子是关于传统人机对话中如果机器生成文本时不受控制可能带来的问题,比如会给出有害的建议,甚至说脏话,这个时候就需要我们在模型生成的时候加以控制。原创 2023-08-27 20:31:32 · 1362 阅读 · 0 评论 -
大模型研究思路:小参数模型--(验证通过)-->大参数模型-->多模态
将小参数模型的研究思路迁移到大模型、多模态。小参数模型:验证通过。原创 2023-08-27 16:01:48 · 250 阅读 · 0 评论