![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 85
javastart
专注于大数据 AI
展开
-
搭建多元专家系统(MOA):轻松整合大模型的力量(二)
近期,AI领域出现了一个引人注目的新现象——“逆转诅咒”(Reversal Curse),这一概念迅速成为热点话题,影响了现今所有的大型语言模型。令人惊讶的是,即便面对极为基础的问题,这些模型的准确率不仅几乎为零,而且似乎没有改善的迹象。更重要的是,这一问题的存在与模型的规模或提问的具体内容无关。在预训练大模型时代,人们曾乐观地认为AI开始展现出一定的逻辑推理能力,然而“逆转诅咒”的出现仿佛让这一切回到了起点。原创 2024-07-21 21:35:44 · 806 阅读 · 0 评论 -
一种基于LLM的辅助教学方法与流程
这些功能通过与教学辅助模型的交互实现,包括发送指令、输入学生的学习需求和学科知识点、输入学生的学习进度和水平等。13、信息补充,用户向教学辅助平台发送需求指令,教学辅助平台通过prompt交互向教学辅助模型补充更具体的信息,包括针对原信息点进行二次展开,或者结合所有补充的信息,重新生成全面教学辅助信息。36、信息补充,用户向教学辅助平台发送需求指令,教学辅助平台通过prompt交互向教学辅助模型补充更具体的信息,包括针对原信息点进行二次展开,或者结合所有补充的信息,重新生成全面教学辅助信息。原创 2024-04-28 19:00:46 · 832 阅读 · 0 评论 -
探索LLM大模型在教育领域的应用前景
其中,$\mathbf{h}w$ 表示单词的向量表示,$\mathbf{E}$ 表示词嵌入矩阵,$\mathbf{x}w$ 表示单词的一热编码向量,$\mathbf{b}_w$ 表示单词的偏置向量。其中,$\mathbf{Q}$ 表示查询矩阵,$\mathbf{K}$ 表示关键字矩阵,$\mathbf{V}$ 表示值矩阵,$d_k$ 表示关键字向量的维度。其中,$\text{head}_i$ 表示单个自注意力层的计算结果,$h$ 表示多头注意力的数量,$\mathbf{W}^O$ 表示输出权重矩阵。原创 2024-04-28 18:56:03 · 1303 阅读 · 0 评论 -
【ChatGPT】AI评论家,适合点评论文和文章的Prompt模
使用方法:复制下述提示词到ChatGPT,然后把需要评价的文本复制到文末。编辑于 2023-07-29 02:36・IP 属地上海。4. 小编审稿(可以早下班了!2. 老师给学生的作文打分。3. 业余评论家点评文章。1. 家长辅导孩子写作。原创 2024-04-28 17:04:46 · 1135 阅读 · 0 评论 -
人工智能技术在教育中的潜力有多大
原文:人工智能技术在教育中的潜力有多大作者:大全Prompt链接:https://www.zhihu.com/question/637034129/answer/3346272227来源:知乎谢邀:在技术快速发展的今天,人工智能(AI)技术在教育领域的应用正成为一个热门话题。AI技术在教育中的潜力是巨大的,它不仅能够改变教学方式,还能提升学习效率,实现个性化教育。原创 2024-04-28 07:54:14 · 1340 阅读 · 0 评论 -
每天不知道吃什么?食谱生成AI工具,帮你实现食谱自由
每天吃什么或许是世纪难题,要想吃的美味、吃的营养更是难上加难面对繁琐的食材怎么做才能省心省力更美味呢?不妨问问AI看能不能辅助我们做出别样美味。今天和大家分享几个食谱生成AI工具,帮你实现食谱自由,轻松编辑拿手菜,我的食谱我做主。原创 2024-04-25 17:46:24 · 649 阅读 · 0 评论 -
大模型推理优化之 KV Cache
KV Cache,即键-值缓存,是一种用于存储键值对数据的缓存机制。在语言模型的推理过程中,经常需要多次访问相同的数据,而KV Cache通过将这些数据缓存到内存中,提供了快速的数据访问速度,从而加速推理过程。该技术仅应用于解码阶段。如 decode only 模型(如 GPT3、Llama 等)、encode-decode 模型(如 T5)的 decode 阶段,像 Bert 等非生成式模型并不适用。原创 2024-04-25 09:32:20 · 1659 阅读 · 0 评论 -
Colab使用教程(超级详细版)及Colab Pro/Pro+评测
Pro+增加到了3个高RAM会话和3个标准会话,在Pro基础上又翻了2.5倍,相当于免费版算力的9倍,Pro+的52GB的高RAM和Pro的25GB的高RAM相比也略有提升(10分钟的epoch能快2分钟左右)。在打开笔记本后,我们默认的文件路径是"/content",这个路径也是执行笔记本时的路径,同时我们一般把用到的各种文件也保存在这个路径下。如果在有代码块执行的情况下继续点击其他代码块的“播放”按钮,则这些代码块进入“等待执行”的状态,按钮也就会进入转圈的状态,但外部的圆圈是虚线。原创 2024-04-22 21:51:46 · 5108 阅读 · 0 评论 -
使用 LLaMA Factory 微调 Llama-3 中文对话模型
请申请一个免费 T4 GPU 来运行该脚本。原创 2024-04-22 21:21:46 · 1338 阅读 · 0 评论 -
OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦!
每个Epoch结束时或者在特定的Epoch间隔时,系统会自动保存当前模型的状态,包括模型的参数(权重和偏置)和优化器的状态。Playground是OpenAI在2022年发布的一个可视化模型比较平台,提供了一个交互式的在线环境,允许用户输入指令或提示,然后将其发送给多个语言模型查看它们的输出结果。微调训练,使用带标注的私有数据,以较小的学习率对整个模型进行训练,直至模型在验证集上的指标达到理想效果。新增的基于 Epoch 的检查点创建功能,可以极大减少模型的重复训练,尤其是在过度拟合的情况下。原创 2024-04-20 23:41:57 · 626 阅读 · 0 评论 -
常用推理框架介绍
请注意,由于工具和项目的更新和变化,GitHub链接可能会发生变化或不再可用。在访问链接时,请确保检查链接的有效性,并参考最新的官方文档和社区信息。此外,一些工具可能是私有或受限制的,因此可能无法直接访问其GitHub仓库。在这种情况下,你可以通过官方渠道或相关社区来获取更多信息和支持。原创 2024-04-20 22:00:17 · 1158 阅读 · 1 评论 -
LLM 推理优化探微 (3) :如何有效控制 KV 缓存的内存占用,优化推理速度?
由于模型权重和不断增长的 KV 缓存都必须在每次前向传递(forward pass)时加载,解码步骤涉及非常大的数据传输,正如我们将在接下来的文章中看到的那样,实际上是受内存带宽限制的,也就是说,我们实际上花在移动数据上的时间要多于做有用工作(即计算)的时间。只有那些对权重和“activations”(即不是权重的其他任何内容)都进行量化的算法,比如 LLM.int8() [17] 或 SmoothQuant [18],才能产生经过量化的 KV 缓存,将其转换为较低精度的表示形式。原创 2024-04-20 12:29:26 · 1127 阅读 · 0 评论 -
图解大模型计算加速系列:vLLM源码解析2,调度器策略(Scheduler)
从vLLM批处理的入口函数开始,介绍了其推理内核LLMEngine的两个重要函数和step()在LLMEngine开始处理请求前(实例化阶段),它会先做一次模拟实验,来估计gpu上需要预留多少显存给KV Cache block。当LLMEngine开始处理请求时(add_request),它会把每个prompt当成一个请求,同时把它包装成一个SequenceGroup对象。原创 2024-04-20 12:05:21 · 1799 阅读 · 1 评论 -
vLLM-prefix浅析(System Prompt,大模型推理加速)
本文浅析了在大模型推理加速方面一个非常优秀的项目 vLLM 的一个新特性 Prefix。在 Prompt 中有相同前缀时可以提高吞吐量降低延迟,换句话说可以省去这部分相同前缀在自注意力阶段的重复计算。更新 2024.1.18:Prefix 已经合并到主分支上了!如果你的 vLLM 不能使用也许是时候升级一下体验下新功能哩!原创 2024-04-20 11:30:26 · 1926 阅读 · 0 评论 -
优化大型语言模型(LLM)的推理过程及挑战解决方案
2023年11月20日 由 daydream 发表4940通过堆叠transformer层来创建大型模型可以在各种语言任务上实现更好的准确性、小样本学习能力,甚至接近人类的新兴能力。然而,训练这些基础模型的成本很高,在推理过程中可能需要大量的存储和计算资源(持续成本)。当今最流行的大型语言模型(LLM)在规模上可以达到数千亿到数百亿个参数的大小,并且根据使用情况,可能需要处理长输入(或上下文),这也可能增加成本。本文讨论了LLM推理中最紧迫的挑战,以及一些实际解决方案。原创 2024-04-20 08:01:12 · 1262 阅读 · 0 评论 -
LLM(十八):LLM 的推理优化技术纵览
目录收起一、子图融合(subgraph fusion)二、模型压缩(Model Compression)2.1 稀疏(Sparsity)2.2 量化(Quantization)2.3 蒸馏(Distillation)2.4 MoE三、并行化(Parallelism)3.1 数据并行 (Data Parallelism, DP)3.2 张量并行(Tensor Parallelism, TP)3.3 流水线并行(Pipeline Parallelism, PP)原创 2024-04-19 18:36:01 · 1643 阅读 · 0 评论 -
KV Cache 技术分析
LLM(大型语言模型)中的 Attention 机制中的 KV Cache(键值缓存)主要作用是存储键值对,以避免在每次生成 token 时重新计算键值向量,从而减少计算量和提高效率。利用预先计算好的 K 值和 V 值,可以节省大量计算时间,尽管这会占用一定的存储空间。随着模型规模的增大和数据量的增加,LLM 的窗口长度也在不断增大,因此就出现一组主要矛盾,即:对不断增长的 LLM 的窗口长度的需要与有限的 GPU 显存之间的矛盾。原创 2024-04-19 08:07:39 · 1441 阅读 · 0 评论 -
前沿论文 | LLM推理性能优化最佳实践
当batch size为1时,4xA100-40GB GPU对应的MBU为55%,而2xH100- 80GB GPU上可以实现更高的MBU,达到60%(如图2所示)。曲线上的每一条线都是通过将batch size从1增加到256得到的,有助于确定在不同的延迟限制条件下,我们可以使用的batch size。有些服务器在所有GPU之间都是高带宽连接,而有些服务器的GPU是成对的,之间的通信带宽较低。此外,在下一次token生成的迭代过程中,新的KV项会被添加到现有的缓存中,使缓存随着新token的生成而增大。原创 2024-04-19 07:43:52 · 1421 阅读 · 0 评论 -
大模型推理百倍加速之KV cache篇
KV cache对应的优化方法,总结成下表:由上表可以看出,KV cache是个值得投入精力去研究的一个重要方向,算法上有着许多未知的方法可以去探索,工程上相对滞后,至少在主流推理框架上对部分方向的优化策略相对保守,这就给了足够多的机会。原创 2024-04-19 07:34:16 · 3902 阅读 · 0 评论 -
Transformer推理性能优化技术很重要的一个就是K V cache,能否通俗分析,可以结合代码?
KV cache对应的优化方法,总结成下表:由上表可以看出,KV cache是个值得投入精力去研究的一个重要方向,算法上有着许多未知的方法可以去探索,工程上相对滞后,至少在主流推理框架上对部分方向的优化策略相对保守,这就给了足够多的机会。原创 2024-04-19 07:25:26 · 1748 阅读 · 0 评论 -
AIGC教育行业全景报告:AI助教和家教成真,学习机迎来新机遇
AI以一种新的形式——Agent,融入到教师和学生的日常中,在提供教、学帮助的基础上,改变二者的学习和工作状态。生成式AI将我们带入AI2.0时代,通过海量数据的学习,AI开始出现涌现能力,所生成的答案以一种更符合人类沟通的方式呈现,并且能够一定程度上激发人的思辨意识。而到了脑机时代,AI智能体与人类的交互将更加深入,AI智能体对人类的意图理解及状态分析都将更准确,并且能够对有学习障碍的人群进行干预,人机共融将达到新的高度。在工具使用上,AI智能体降低了教师的学习成本,为其提供几乎零门槛的使用方式。原创 2024-04-16 22:02:30 · 1265 阅读 · 0 评论 -
AutoGen - Build Powerful AI Agents with ChatGPT/GPT-4
【代码】AutoGen - Build Powerful AI Agents with ChatGPT/GPT-4。原创 2024-04-14 20:17:54 · 1020 阅读 · 2 评论 -
vllm 参数介绍
一个重要参数enable-prefix-caching 特殊场景会提高很大性能。详细建视频:https://www.toutiao.com/video/7355331984845734435/?channel=&source=search_tabBelow, you can find an explanation of every engine argument for vLLM:--model Name or path of the huggingface mode原创 2024-04-12 19:01:53 · 2189 阅读 · 0 评论 -
AI Kimi:帮助教师做好试卷命题
最近,Kimichat工具很火。这款软件不仅仅是一个聊天和阅读工具,还是一个强大的教学辅助工具。作为一位教师,尝试使用Kimichat,发现它在命题方面有着出色的表现,让我深感惊喜。Kimichat为教师可以轻松指定题型、题量以及难度,无论是选择题、填空题还是简答题,都能迅速生成。这一功能极大地减轻了教师的备课压力,使他们能够更专注于教学内容的策划和教学方法的创新。它不仅能生成题目,还能自动生成对应的答案。特别是Kimichat还能完成面命题细目表的生成。原创 2024-04-04 23:14:46 · 933 阅读 · 0 评论 -
您现在可以在家训练 70b 语言模型
我们认为,如果我们可以使用 QLoRA 将模型的大小减少大约 400%(因此 70b 模型将适合 35GB RAM),然后我们使用 FSDP 将其分片到两个或更多 24GB 消费卡上,那么就剩下剩余足够的 RAM 来训练模型。项目,这是他发现的最完整的 FSDP 微调实现,并密切跟踪它如何与 BitsandBytes 以及 Hugging Face 的 PEFT、Transformers 和 Accelerate 项目一起工作,他设法构建了一个最小的独立脚本,手动完成微调模型所需的所有步骤。原创 2024-03-30 21:03:55 · 1475 阅读 · 0 评论 -
伯克利大模型排名
网站: https://arena.lmsys.org/原创 2024-03-26 16:06:50 · 312 阅读 · 0 评论 -
chatgpt How to call functions with chat models
This notebook covers how to use the Chat Completions API in combination with external functions to extend the capabilities of GPT models. is an optional parameter in the Chat Completion API which can be used to provide function specifications. The purpose原创 2024-03-07 17:19:55 · 1235 阅读 · 0 评论 -
OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度
对于正确的解决方案,两种方法提供的信息相同,因为每一步都是正确的解题方法。对于每个数据集,OpenAI 提供三种形式的监督:来自 PRM_large 的过程监督,来自 PRM_large 的结果监督以及来自最终答案检查的结果监督。为了更好的比较结果监督和过程监督,首先需要注意的是 ORM 和 PRM 的训练集不具有直接可比性,PRM 训练集是使用主动学习构建的,偏向于答案错误的解决方案,还比 ORM 训练集少一个数量级。图 2 为同一个问题的 2 种解决方案,左边的答案是正确的,右边的答案是错误的。原创 2024-02-28 22:55:57 · 1091 阅读 · 0 评论 -
Prompt 编程的优化技巧
我们使用官方的 ChatGPT 的网页进行多次对话时,很少出现超出 GPT上下文的错误提示,是因为官方的 ChatGPT 会将相对较老的上下文清理掉,从而避免超 GPT 上下文限制的情况发生,这其实也是一种精简 GPT 上下文的思路。OpenAI 按照传入的上下文 + 最新回复的信息总和,然后折算成 Token 计费,所以上下文越多计费越贵,并且成逐步上涨的趋势(因为多轮会话中,上下文会越来越大),所以节省上下文实际上就是节省费用。”,可以缩短 GPT回复的字数,从而减少 Token 消耗。原创 2024-02-26 18:58:54 · 1991 阅读 · 0 评论 -
大语言模型推理加速技术:计算加速篇
其中Q,K,V是模型的三个矩阵。context phase也叫prefill phase:需要计算整个prompt的自注意力,q_input, k_input, v_input大小都为[seq_len, emb_dim],即整个prompt的embedding,context phase只需要进行一次,生成第一个token。原创 2024-02-26 09:25:16 · 1819 阅读 · 0 评论 -
大语言模型推理加速技术:模型压缩篇
本篇介绍左边蓝色的部分,右边绿色的部分在上篇文章在上一篇文章中我们介绍了不改变模型结构的条件下,加速模型推理的技术,即让模型“算得更快”。而这篇文章将介绍模型压缩的技术,即让模型“算得更少”。量化(Quantization):使用低精度(≤16位)存储模型权重。精简Attention:通过一些变种的Attention算法减少模型计算量。除此之外还有“投机采样”这种巧妙的采样方法也可以视为对大模型的压缩。而传统的几个压缩方法比如知识蒸馏和剪枝。原创 2024-02-26 09:22:21 · 1948 阅读 · 1 评论 -
微信公众号集成文心一言API
在Python环境 ≥ 3.8的情况下,你可以使用以下命令来安装这些库: pip install erniebot flask gevent 如果你在安装过程中遇到任何问题,或者需要更具体的帮助,欢迎随时向我询问。集成文心一言API:将文心一言API集成到你的微信公众号中,需要在Flask应用中实现一个或多个函数来与文心一言API进行交互。如果不匹配,将返回错误消息。总的来说,使用Python语言和Flask技术来集成微信公众号与文心一言API是一个相对复杂的过程,需要具备一定的编程和Web开发经验。原创 2024-02-19 08:01:48 · 1449 阅读 · 0 评论 -
大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。说明:每次加载LLM示例后,建议清除缓存,以防止出现OutOfMemory错误。如果在jupyter中无法释放显存,请重启这个jupyter notebook。原创 2024-02-01 21:55:00 · 2594 阅读 · 0 评论 -
LM Studio-简化安装和使用开源大模型 | OpenAI API 文字转语音本地运行程序分享
这样既节省了调用API的成本,又能发挥大模型的强大能力。,最近用上了LM Studio,对比Ollama,LM Studio还支持Win端,支持的模型更多,客户端本身就可以多轮对话,而且还支持启动类似OpenAI的API的本地HTTP服务器。实测,dolphin-2.6-mistral 7B模型在我Mac M1 Max 32G的电脑上运行速度很快,生成质量不错,而且dolphin是可以生成NSFW内容的。也就是说,如果你之前做过一些应用,用的是OpenAI API的模型,那现在可以非常方便转成本地模型。原创 2024-02-01 11:01:38 · 4797 阅读 · 0 评论 -
动手学RAG:汽车知识问答
在自然语言处理领域,大型语言模型(LLM)如GPT-3、BERT等已经取得了显著的进展,它们能够生成连贯、自然的文本,回答问题,并执行其他复杂的语言任务。然而,这些模型存在一些固有的局限性,如“模型幻觉问题”、“时效性问题”和“数据安全问题”。为了克服这些限制,检索增强生成(RAG)技术应运而生。RAG技术结合了大型语言模型的强大生成能力和检索系统的精确性。它允许模型在生成文本时,从外部知识库中检索相关信息,从而提高生成内容的准确性、相关性和时效性。原创 2024-01-29 14:34:34 · 1837 阅读 · 0 评论 -
最高20倍!压缩ChatGPT等模型文本提示,极大节省AI算力
同时,也与其他提示压缩方法进行了对比,如基于困惑度的LLMLingua和基于检索的方法,评估了LongLLMLingua的有效性。工作原理是,利用源文本、压缩文本、生成文本之间的子序列关系,从生成结果中恢复完整的关键名词词组,修复压缩带来的信息缺失,提高结果的准确性。通过利用粗粒度压缩模块计算出的各段落与问题的关联度,对段落进行排序,使关联度最高的段落排在最前面。关联度最高的段落压缩比率最低,依次类推。对更相关的段落使用更低的压缩比率,分配更多的保留词语预算,而对相关性较弱的段落则使用更高的压缩比率。原创 2024-01-28 11:09:50 · 1052 阅读 · 0 评论 -
体验 AutoGen Studio - 微软推出的友好多智能体协作框架
1. AutoGen和AutoGen Studio都是微软研究团队开发的工具,用于创建和管理AI智能体。AutoGen提供底层框架,AutoGen Studio提供直观的用户界面。2. AutoGen Studio的主要特性包括定义和修改智能体、与智能体互动、增加技能、发布会话等。3. 与CrewAI和MetaGPT相比,AutoGen Studio提供了可视化界面,对新手更友好。4. AutoGen Studio可应用于文档管理、客户服务、数据分析、教育培训、创意内容生成等场景,助力任务自动化。原创 2024-01-27 21:18:27 · 4039 阅读 · 0 评论 -
使用 OpenLLM 构建和部署大模型应用
需要注意的是,内存不是连续的,因此需要一个 block table 来存储内存的物理位置和实际序号的映射关系,使得在大模型中看起来是获得了一个逻辑上连续的内存。然而,由于输入可能存在重复计算,例如在输入"我是一只"后,模型返回"我是一只猫",在输入"我是一只猫"时,又返回"我是一只猫,",这导致了 Transformer 框架中有许多重复的计算。此外,在 BentoCloud 上,可以指定扩容的方式,可以分别为 API 指定需要扩容的节点数,或者为每个 runner 指定需要的 GPU 数量或实例数。原创 2024-01-20 14:46:06 · 1510 阅读 · 0 评论 -
L40S解析,同是AD102核心为什么强于A800(A100)近2成性能
一、L40S解析一个朋友测试测试了4张4090和1张l40,性能。发现l40 性能训练大模型性价比超高。我就找了类似文章看看,分享一下。一、L40S解析一张硬件上比较平平无奇,但是性能与售价又惊为天人的显卡引起了我的注意。由于是未发售的企业级显卡因此只能用已有公开媒体数据做个推测。L40S,一张OEM渠道拿货就近1w美刀的被动散热卡,无NVLINK,无PCIE5.0,无HBM3显存,只有一块和4090同样的AD102核心配上几乎没眼看的GDDR6(ECC)显存。原创 2024-01-19 07:21:14 · 2077 阅读 · 1 评论 -
奥数能力金牌级:DeepMind几何推理模型alphageometry登上Nature,代码开源
过去针对基于证明的竞争问题的人工智能解决方案有时是碰巧的(输出有时是正确的,需要人工检查),而 AlphaGeometry 没有这个弱点:它的解决方案具有机器可验证的结构。一般的奥林匹克几何问题基于图表,需要添加新的几何结构才能解决,例如点、线或圆。在 AlphaGeometry 的研究上,DeepMind 从跨越 2000 年到 2022 年之间的 30 个奥林匹克几何问题(IMO-AG-30)的基准测试集中进行了测试,结果表明,AlphaGeometry 在比赛时间限制下能够解决 25 个问题。原创 2024-01-18 11:53:28 · 1026 阅读 · 0 评论