自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1609)
  • 资源 (4)
  • 收藏
  • 关注

原创 Django 教程第1章 | 快速入门 | 基础知识

我们可以自定义管理页面,来取代默认的页面。比如上面的 "add" 页面。我们想只显示 name 和 email 部分。admin.py以上代码定义了一个 ContactAdmin 类,用以说明管理页面的显示格式。里面的 fields 属性定义了要显示的字段。由于该类对应的是 Contact 数据模型,我们在注册的时候,需要将它们一起注册。显示效果如下:我们还可以将输入栏分块,每个栏也可以定义自己的格式。

2024-08-25 15:07:27 684 1

原创 comfyUI和SD webUI都有哪些差别呢?

综上所述,选择ComfyUI还是SD WebUI取决于您的具体需求:如果您追求高性能、自定义工作流并愿意投入时间学习,ComfyUI可能是更好的选择;若您偏好直观易用、丰富的插件资源以及稳定的更新,SD WebUI则可能更适合您。ComfyUI和SD WebUI都是用于AI绘画的用户界面,它们各自有着不同的特点和适用场景。分享一些比较好用的SD模型,可以直接下载免费使用链接地址:「

2024-08-22 16:27:36 590

原创 开源仅 1 天就斩获近万星!超越 RAG、让大模型拥有超强记忆力的 Mem0 火了

人类的记忆有限,但是 Dot 拥有超长的记忆能力,你可以随时 cue 它回答关于你的任何回忆,你发送的文字、语音备忘录、图片、PDF 文件,它都用来形成它的记忆,从而成为一个随时在线的伴侣,帮助你思考生活、发现隐藏的联系并提升自我。Mem0 可以用来开发长期、短期记忆,它能记住用户的偏好、过去的交互、事情的进展,可以为应用构建适应性的学习体验。:Mem0 优先考虑最近的交互,并逐渐忘记过时的信息,确保记忆保持相关和最新,以提供更准确的响应。并且 Mem0 还提供了开发者友好的 API,安装和使用也很简单。

2024-08-11 07:42:30 553

原创 Mixture-of-Agents​​​​​​​(MoA)

我们的MoA方法在无害性、鲁棒性、正确性、效率、事实性、常识性、洞察力、完整性等方面均优于原Qwen1.5-110B-Chat。值得注意的是,在 AlpacaEval 2.0 上,仅使用开源模型,我们从 57.5% (GPT-4 Omni) 到 65.1% (MoA) 实现了 7.6% 的绝对提升。Mixture of Agents (MoA) 是一种新颖的方法,它利用多个 LLM 的集体优势来提高绩效,实现最先进的结果。通过采用分层架构,每层包含多个 LLM 代理,MoA 在仅使用开源模型的情况下,在。

2024-08-10 23:15:10 776

原创 开源大模型蒸馏工具 DistillKit 介绍

原文:github:

2024-08-04 14:15:32 193

原创 一文详解大模型蒸馏工具TextBrewer

TextBrewer为NLP中的知识蒸馏任务设计,融合了多种知识蒸馏技术,提供方便快捷的知识蒸馏框架。模型无关:适用于多种模型结构(主要面向Transfomer结构)方便灵活:可自由组合多种蒸馏方法;可方便增加自定义损失等模块非侵入式:无需对教师与学生模型本身结构进行修改支持典型的NLP任务:文本分类、阅读理解、序列标注等TextBrewer软标签与硬标签混合训练动态损失权重调整与蒸馏温度调整。

2024-08-04 07:40:05 738

原创 大模型瘦身专家!单卡处理Llama 3.1 405B 超强压缩工具LLMC来了

量化,就像是给AI大脑做了一次“瘦身”,通过将模型的权重和激活映射到更低位数的数据格式,不仅减少了模型的体积,还加快了模型的运行速度。LLMC就像是AI的私人减肥教练,它能够帮助研究者和开发者找到最适合的"减肥方案",既能让AI模型变得更轻盈,又不会影响它的"智力水平"。一个拥有1760亿参数的多语言模型Bloom,光是存储模型的权重就需要至少350GB的空间,而且运行起来还需要好几块高级GPU。在量化算法方面,他们探讨了转换、裁剪和重建三种主要技术的影响,就像是比较了不同的运动方式对减肥的效果。

2024-08-02 18:38:16 459

原创 ray集群部署vllm的折磨

这个想法是在去年下半年的时候萌发的,当时开源界已经有很多LLM inference的框架,比如:huggingface transformer(包括accelerate)包,deepspeed-inference/deepspeed-FastGen(似乎现在做了集成,改名为deepspeed-MII),还有GGUF格式的inference,以及今天的主角vllm。虽然问题得到了解决,但是我心里仍然很不安,原因很简单:我的解决方案并不是vllm官方支持的,只是通过研读源码,自行找到的解决方案。

2024-08-02 17:10:08 743

原创 使用FastChat快速部署LLM服务

FastChat 的 Worker 会向 Controller 注册自身,并通过心跳机制保持连接。使用 FastChat OpenAI API Server 的端点初始化。为了避免潜在的依赖冲突,创建单独的虚拟环境用于FastChat部署。为了获得更好的推理性能,推荐使用vLLM作为后端来加速推理。服务启动后,默认端口是 8000,可以通过。关闭 OpenAI API Server。参数是设置服务的主机地址,这里设置为。,表示可以通过任何地址访问。关闭 Controller。

2024-08-02 17:02:32 1115

原创 Torch-Pruning (TP) -1.4.1 更新

【代码】Torch-Pruning (TP) -1.4.1 更新。

2024-08-02 10:05:13 749

原创 大模型量化技术原理-SmoothQuant

根据量化参数s(数据量化的间隔)和z(数据偏移的偏置)的共享范围,即量化粒度的不同,量化方法可以分为逐层量化(per-tensor)、逐通道(per-token & per-channel 或者 vector-wise quantization )量化和逐组量化(per-group、Group-wise)。近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。

2024-08-02 09:25:48 745

原创 2024大语言模型入门指南:从小白到高手(基础篇)

硬件资源篇。

2024-07-31 17:54:05 1190

原创 LLaMA-Factory QuickStart

数据集的格式要求在不同的阶段是不同的,本教程以sft阶段的数据集需求,将以系统自带的identity数据集和将自定义的一个商品文案生成数据集为例,介绍数据集的使用。更多详情可以在中找到相关解释。系统目前支持 alpaca 和sharegpt两种数据格式,以alpaca为例,整个数据集是一个json对象的list,具体数据格式为"instruction": "用户指令(必填)","input": "用户输入(选填)","output": "模型回答(必填)",

2024-07-31 15:27:41 1054

原创 听说可以用ChatGPT写答辩意见了?GPT模型在律师法律文书写作领域的助益与不足

原文:https://zhuanlan.zhihu.com/p/651345473今年以来,以ChatGPT为代表的新型人工智能语言模型(统称为“GPT模型”)风靡全球,对各行业均产生了不同程度的冲击。就律师行业而言,主要针对以GPT模型能否取代律师工作,在何种程度上能够为律师工作提供协助,可能存在及产生的法律风险等方面,实务界展开了热烈的讨论。本文以笔者所在团队实际代理的某侵权责任案为切入点,尝试展示GPT模型分析该案的视角、层次及逻辑,并通过与法院判决部分的对比,揭示GPT模型在案情分析及文

2024-07-27 22:41:58 596

原创 法律 | 法律人AI使用指南

原文:法律 | 法律人AI使用指南|法官|法院|文书|公司法_网易订阅01引言过去半年多,我一直在尝试着用AI来辅助自己的各项法律工作,将AI融入自己的日常工作之中,并试图形成自身稳定的“法律+AI”工作流。在此过程中,我时常惊讶于AI高效的工作能力,也不时会感到失望——他有他的长处,也有他的局限——逐渐地,我学会了扬长避短,也算积累了一些经验与教训,所以这篇文章既是分享,也是对过去自身工作经验的梳理与总结。我有一个比喻:在AI时代,对于法律工作而言,AI擅长的不是从0到1,而是从1到90

2024-07-27 17:05:21 946

原创 搭建多元专家系统(MOA):轻松整合大模型的力量(二)

近期,AI领域出现了一个引人注目的新现象——“逆转诅咒”(Reversal Curse),这一概念迅速成为热点话题,影响了现今所有的大型语言模型。令人惊讶的是,即便面对极为基础的问题,这些模型的准确率不仅几乎为零,而且似乎没有改善的迹象。更重要的是,这一问题的存在与模型的规模或提问的具体内容无关。在预训练大模型时代,人们曾乐观地认为AI开始展现出一定的逻辑推理能力,然而“逆转诅咒”的出现仿佛让这一切回到了起点。

2024-07-21 21:35:44 921

原创 docker mirrors (适合中国宝宝的镜像源)

在国内的访问速度极慢. 当时大家主要还是依赖国内的一些镜像源: 如中科院或alipapa etc. 但是今年逐渐所有的国内镜像站也逐渐关闭. 在墙内的小伙伴想要拉取镜像变成了很困难的事情。如果你正在使用 orbstack. 你也可以直接在 ~/.orbstack/config/docker.json 中编辑配置,然后用 orb restart docker 重启引擎。注: 视频中使用的是 orb. 基本操作和直接使用 docker 相同. 具体细节可以查看下面的配置方法.更多 orb 细节, 见。

2024-07-07 18:33:10 747

原创 一种基于LLM的辅助教学方法与流程

这些功能通过与教学辅助模型的交互实现,包括发送指令、输入学生的学习需求和学科知识点、输入学生的学习进度和水平等。13、信息补充,用户向教学辅助平台发送需求指令,教学辅助平台通过prompt交互向教学辅助模型补充更具体的信息,包括针对原信息点进行二次展开,或者结合所有补充的信息,重新生成全面教学辅助信息。36、信息补充,用户向教学辅助平台发送需求指令,教学辅助平台通过prompt交互向教学辅助模型补充更具体的信息,包括针对原信息点进行二次展开,或者结合所有补充的信息,重新生成全面教学辅助信息。

2024-04-28 19:00:46 911

原创 探索LLM大模型在教育领域的应用前景

其中,$\mathbf{h}w$ 表示单词的向量表示,$\mathbf{E}$ 表示词嵌入矩阵,$\mathbf{x}w$ 表示单词的一热编码向量,$\mathbf{b}_w$ 表示单词的偏置向量。其中,$\mathbf{Q}$ 表示查询矩阵,$\mathbf{K}$ 表示关键字矩阵,$\mathbf{V}$ 表示值矩阵,$d_k$ 表示关键字向量的维度。其中,$\text{head}_i$ 表示单个自注意力层的计算结果,$h$ 表示多头注意力的数量,$\mathbf{W}^O$ 表示输出权重矩阵。

2024-04-28 18:56:03 1449

原创 【ChatGPT】AI评论家,适合点评论文和文章的Prompt模

使用方法:复制下述提示词到ChatGPT,然后把需要评价的文本复制到文末。编辑于 2023-07-29 02:36・IP 属地上海。4. 小编审稿(可以早下班了!2. 老师给学生的作文打分。3. 业余评论家点评文章。1. 家长辅导孩子写作。

2024-04-28 17:04:46 1286

原创 CHATGPT对写作业的好处

本文目录一览1、chatGPT对写作业的好处2、chatGPT批改作业3、chatGPT完成作业4、chatGPT写作业水平超过大学生5、美国大学生用chatGPT写作业大家好,今天来为您分享chatGPT对写作业的好处的一些知识,本文内容可能较长,请你耐心阅读,如果能碰巧解决您的问题,别忘了关注本站,您的支持是对我们的最大鼓励!其实这么做的目的也是投喂chatGPT,让它围绕你的主题,学习不同的知识,例如高引文献、综述文献、按时间或按某些主题的文献、指定某些期刊的文献等等。

2024-04-28 10:32:37 1419

原创 人工智能技术在教育中的潜力有多大

原文:人工智能技术在教育中的潜力有多大作者:大全Prompt链接:https://www.zhihu.com/question/637034129/answer/3346272227来源:知乎谢邀:在技术快速发展的今天,人工智能(AI)技术在教育领域的应用正成为一个热门话题。AI技术在教育中的潜力是巨大的,它不仅能够改变教学方式,还能提升学习效率,实现个性化教育。

2024-04-28 07:54:14 1527

原创 每天不知道吃什么?食谱生成AI工具,帮你实现食谱自由

每天吃什么或许是世纪难题,要想吃的美味、吃的营养更是难上加难面对繁琐的食材怎么做才能省心省力更美味呢?不妨问问AI看能不能辅助我们做出别样美味。今天和大家分享几个食谱生成AI工具,帮你实现食谱自由,轻松编辑拿手菜,我的食谱我做主。

2024-04-25 17:46:24 751

原创 大模型推理优化之 KV Cache

KV Cache,即键-值缓存,是一种用于存储键值对数据的缓存机制。在语言模型的推理过程中,经常需要多次访问相同的数据,而KV Cache通过将这些数据缓存到内存中,提供了快速的数据访问速度,从而加速推理过程。该技术仅应用于解码阶段。如 decode only 模型(如 GPT3、Llama 等)、encode-decode 模型(如 T5)的 decode 阶段,像 Bert 等非生成式模型并不适用。

2024-04-25 09:32:20 2359

原创 Colab使用教程(超级详细版)及Colab Pro/Pro+评测

Pro+增加到了3个高RAM会话和3个标准会话,在Pro基础上又翻了2.5倍,相当于免费版算力的9倍,Pro+的52GB的高RAM和Pro的25GB的高RAM相比也略有提升(10分钟的epoch能快2分钟左右)。在打开笔记本后,我们默认的文件路径是"/content",这个路径也是执行笔记本时的路径,同时我们一般把用到的各种文件也保存在这个路径下。如果在有代码块执行的情况下继续点击其他代码块的“播放”按钮,则这些代码块进入“等待执行”的状态,按钮也就会进入转圈的状态,但外部的圆圈是虚线。

2024-04-22 21:51:46 9017

原创 使用 LLaMA Factory 微调 Llama-3 中文对话模型

请申请一个免费 T4 GPU 来运行该脚本。

2024-04-22 21:21:46 1511

原创 OpenAI发布全新微调API :ChatGPT支持更详细可视化微调啦!

每个Epoch结束时或者在特定的Epoch间隔时,系统会自动保存当前模型的状态,包括模型的参数(权重和偏置)和优化器的状态。Playground是OpenAI在2022年发布的一个可视化模型比较平台,提供了一个交互式的在线环境,允许用户输入指令或提示,然后将其发送给多个语言模型查看它们的输出结果。微调训练,使用带标注的私有数据,以较小的学习率对整个模型进行训练,直至模型在验证集上的指标达到理想效果。新增的基于 Epoch 的检查点创建功能,可以极大减少模型的重复训练,尤其是在过度拟合的情况下。

2024-04-20 23:41:57 679

原创 常用推理框架介绍

请注意,由于工具和项目的更新和变化,GitHub链接可能会发生变化或不再可用。在访问链接时,请确保检查链接的有效性,并参考最新的官方文档和社区信息。此外,一些工具可能是私有或受限制的,因此可能无法直接访问其GitHub仓库。在这种情况下,你可以通过官方渠道或相关社区来获取更多信息和支持。

2024-04-20 22:00:17 1370 1

原创 LLM 推理优化探微 (3) :如何有效控制 KV 缓存的内存占用,优化推理速度?

由于模型权重和不断增长的 KV 缓存都必须在每次前向传递(forward pass)时加载,解码步骤涉及非常大的数据传输,正如我们将在接下来的文章中看到的那样,实际上是受内存带宽限制的,也就是说,我们实际上花在移动数据上的时间要多于做有用工作(即计算)的时间。只有那些对权重和“activations”(即不是权重的其他任何内容)都进行量化的算法,比如 LLM.int8() [17] 或 SmoothQuant [18],才能产生经过量化的 KV 缓存,将其转换为较低精度的表示形式。

2024-04-20 12:29:26 1215

原创 图解大模型计算加速系列:vLLM源码解析2,调度器策略(Scheduler)

从vLLM批处理的入口函数开始,介绍了其推理内核LLMEngine的两个重要函数和step()在LLMEngine开始处理请求前(实例化阶段),它会先做一次模拟实验,来估计gpu上需要预留多少显存给KV Cache block。当LLMEngine开始处理请求时(add_request),它会把每个prompt当成一个请求,同时把它包装成一个SequenceGroup对象。

2024-04-20 12:05:21 2351 1

原创 vLLM-prefix浅析(System Prompt,大模型推理加速)

本文浅析了在大模型推理加速方面一个非常优秀的项目 vLLM 的一个新特性 Prefix。在 Prompt 中有相同前缀时可以提高吞吐量降低延迟,换句话说可以省去这部分相同前缀在自注意力阶段的重复计算。更新 2024.1.18:Prefix 已经合并到主分支上了!如果你的 vLLM 不能使用也许是时候升级一下体验下新功能哩!

2024-04-20 11:30:26 2539

原创 优化大型语言模型(LLM)的推理过程及挑战解决方案

2023年11月20日 由 daydream 发表4940通过堆叠transformer层来创建大型模型可以在各种语言任务上实现更好的准确性、小样本学习能力,甚至接近人类的新兴能力。然而,训练这些基础模型的成本很高,在推理过程中可能需要大量的存储和计算资源(持续成本)。当今最流行的大型语言模型(LLM)在规模上可以达到数千亿到数百亿个参数的大小,并且根据使用情况,可能需要处理长输入(或上下文),这也可能增加成本。本文讨论了LLM推理中最紧迫的挑战,以及一些实际解决方案。

2024-04-20 08:01:12 1367

原创 LLM(十八):LLM 的推理优化技术纵览

目录收起一、子图融合(subgraph fusion)二、模型压缩(Model Compression)2.1 稀疏(Sparsity)2.2 量化(Quantization)2.3 蒸馏(Distillation)2.4 MoE三、并行化(Parallelism)3.1 数据并行 (Data Parallelism, DP)3.2 张量并行(Tensor Parallelism, TP)3.3 流水线并行(Pipeline Parallelism, PP)

2024-04-19 18:36:01 2036

原创 KV Cache 技术分析

LLM(大型语言模型)中的 Attention 机制中的 KV Cache(键值缓存)主要作用是存储键值对,以避免在每次生成 token 时重新计算键值向量,从而减少计算量和提高效率。利用预先计算好的 K 值和 V 值,可以节省大量计算时间,尽管这会占用一定的存储空间。随着模型规模的增大和数据量的增加,LLM 的窗口长度也在不断增大,因此就出现一组主要矛盾,即:对不断增长的 LLM 的窗口长度的需要与有限的 GPU 显存之间的矛盾。

2024-04-19 08:07:39 1891

原创 前沿论文 | LLM推理性能优化最佳实践

当batch size为1时,4xA100-40GB GPU对应的MBU为55%,而2xH100- 80GB GPU上可以实现更高的MBU,达到60%(如图2所示)。曲线上的每一条线都是通过将batch size从1增加到256得到的,有助于确定在不同的延迟限制条件下,我们可以使用的batch size。有些服务器在所有GPU之间都是高带宽连接,而有些服务器的GPU是成对的,之间的通信带宽较低。此外,在下一次token生成的迭代过程中,新的KV项会被添加到现有的缓存中,使缓存随着新token的生成而增大。

2024-04-19 07:43:52 1647

原创 大模型推理百倍加速之KV cache篇

KV cache对应的优化方法,总结成下表:由上表可以看出,KV cache是个值得投入精力去研究的一个重要方向,算法上有着许多未知的方法可以去探索,工程上相对滞后,至少在主流推理框架上对部分方向的优化策略相对保守,这就给了足够多的机会。

2024-04-19 07:34:16 6723

原创 Transformer推理性能优化技术很重要的一个就是K V cache,能否通俗分析,可以结合代码?

KV cache对应的优化方法,总结成下表:​由上表可以看出,KV cache是个值得投入精力去研究的一个重要方向,算法上有着许多未知的方法可以去探索,工程上相对滞后,至少在主流推理框架上对部分方向的优化策略相对保守,这就给了足够多的机会。

2024-04-19 07:25:26 2562

原创 AIGC教育行业全景报告:AI助教和家教成真,学习机迎来新机遇

AI以一种新的形式——Agent,融入到教师和学生的日常中,在提供教、学帮助的基础上,改变二者的学习和工作状态。生成式AI将我们带入AI2.0时代,通过海量数据的学习,AI开始出现涌现能力,所生成的答案以一种更符合人类沟通的方式呈现,并且能够一定程度上激发人的思辨意识。而到了脑机时代,AI智能体与人类的交互将更加深入,AI智能体对人类的意图理解及状态分析都将更准确,并且能够对有学习障碍的人群进行干预,人机共融将达到新的高度。在工具使用上,AI智能体降低了教师的学习成本,为其提供几乎零门槛的使用方式。

2024-04-16 22:02:30 1323

原创 AutoGen - Build Powerful AI Agents with ChatGPT/GPT-4

【代码】AutoGen - Build Powerful AI Agents with ChatGPT/GPT-4。

2024-04-14 20:17:54 1061 2

原创 vllm 参数介绍

一个重要参数enable-prefix-caching 特殊场景会提高很大性能。详细建视频:https://www.toutiao.com/video/7355331984845734435/?channel=&source=search_tabBelow, you can find an explanation of every engine argument for vLLM:--model Name or path of the huggingface mode

2024-04-12 19:01:53 2735

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除