![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 83
Arthur.AI
人工智能算法工程师,对深度学习,计算机视觉,嵌入式AI,人脸识别,自动驾驶技术感兴趣的一起来交流吧!
展开
-
Stable Diffusion 3: Research Paper
扩展模型 (Stable Diffusion) 在與 DALL·E 3、Midjourney v6 和 Ideogram v1这些图像生成系统相比,在书写效果以及响应指令方面表现出色。人类用户的预测性评估显示了这一点。全新多模态扩散变换器(MMDiT)架构,在图像和语言表示之间使用了不同的参数化学习权重函数,这有助于提高 Stable Diffusion 文本理解与翻译能力。原创 2024-06-13 14:35:33 · 919 阅读 · 0 评论 -
【AI绘画】Stable Diffusion 3开源
Stable Diffusion 3是Stability AI目前为止最先进的文本转图像开放源代码算法。这款模型的小巧设计使其完美适合用于消费级PC和笔记本电脑,以及企业级图形处理单元上运行。它已经满足了标准化的文字转图像模型所需要的一切条件,适应市场需求的下一代模型正在到来。:采用先进的图像处理技术,能够生成精确、色彩饱和且光线自然的图像,同时也可以制作出高品质且多样化风格的输出。利用如16 通道 VAE的创新性技术解决了其他模型经常会遇到的问题,例如手部和面部实体效果不足等问题。原创 2024-06-13 13:40:29 · 788 阅读 · 0 评论 -
Hyper-SD: diffusion实时出图,一步搞定,字节出品
近来,一系列面向扩散模型(Diffusion Models,DM)的迭代紧凑式传播推断算法陆续出现,以解决其中的复杂性问题。目前,这些算法常常将方法分为两类:一是保持 ODE 流形连续性;二是重写 ODE 流形。然而,这两种方法在压缩后的执行效果中存在显著问题。因此,我们提出了 Hyper-SD 框架,通过有机结合以上两类算法的优点,并将其应用于压缩后模型的学习,从而实现高质量执行。此外,我们引入了人工反馈学习,以提高在低步长情况下的表现和改进该过程中可能发生的损失。原创 2024-06-06 19:03:36 · 769 阅读 · 0 评论 -
【pytorch】大模型训练张量并行
原始 Tensor Parallel (TP) 模型并行技术于Megatron-LM论文中被提出,是一种用于培育大规模Transformer模型的高效模型并行技术。我们在本练习指南中介绍的序列并行 (SP) 实际上是TP模型并行技术的一个变种,这里使用序列划分对 nn.LayerNorm 或 RMSNorm 进行划分,以节省在训练过程中的活动内存。随着模型体量的扩大,其运算内存就会成为主要瓶颈,因此TP模型并行技术通常是将序列并行应用于 LayerNorm 或 RMSNorm 层。原创 2024-06-03 17:47:18 · 1277 阅读 · 0 评论 -
DistriFusion: 分布式并行推理加速高分辨率 Diffusion Models
虽然采用扩散模型来生成高质量图像已经取得了巨大的进展,但是要通过该方法构建多分辨率图像还存在不小的困难。这主要是由于扩散模型需要消耗庞大的计算量才能达到理想效果,造成了非常严重的时间延迟问题,而此类应用在交互性方面具有核心作用。为解决这个难点,我们提出了 DistriFusion 模型以实现高效率处理。该模型首先将输入分片后再按 GPU 分配,但是由于无法考虑图像相邻层之间的关联性就可能导致丢失了原始信息并产生模糊度。原创 2024-06-03 10:42:17 · 447 阅读 · 0 评论 -
TinyChat: Visual Language Models & Edge AI 2.0
了解TinyChat和AWQ最新的技术发展。在边缘部署语言理解模型(LSTM)后,借助于视觉语言模型(VLM),可以为LLM提供更好地处理图像输入的能力,从而极大方便了文字对话问答、图片标题生成等图形内容解读任务。TinyChat最新版支持先进VLM技术 VILA,可通过AWQ轻松实现量化操作,从而为用户提供了完美的使用体验来应对图片内容处理等任务。原创 2024-05-22 15:37:40 · 526 阅读 · 0 评论 -
Ollama部署
量化 model 到 4-bits (using Q4_K_M method)转换 model 为 ggml FP16 格式。导入Ollama model。运行Ollama model。创建 Modelfile。原创 2024-05-21 18:23:44 · 393 阅读 · 1 评论 -
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving
量化技术能够加速大规模语言模型(LMM)的预测。在INT8量化方法之上,研究者们正积极探索更低精度的技术,如INT4量化。然而,目前的INT4量化算法尚未实现对GPU中加速器内部重要运算(weight和KV全盘逐段)的低负载表现。我们发现,有关如何提高LMM服务效率的问题核心在于对GPU上进行操作时处理速度与通道数密切相关。因此,我们开发了QoQ量化算法,其中W4A8KV4指的是 4-bit weight、8-bit activation和4-bit KV cash;原创 2024-05-21 18:15:35 · 449 阅读 · 0 评论 -
经典多模态大模型
Q-former结构中,冻结的图像编码器和text tokens不能直接交互,因此想做生成时需要两步,第一步使用queries提取表征,第二步将表征通过自注意力层传递给text token(这里体现在q-former中的图像部分和文本部分使用的self-attention是共享的)因此,query被迫提取有关文本所有信息的视觉表征。在训练过程中,原LLM的参数被固定不训练,所以训练消耗的FLOPs不变(笔者个人理解,不变是不可能的,只是增加的不多)。如果直接冻结预训练好的参数,去做下游任务,效果不佳。原创 2024-05-11 15:25:51 · 758 阅读 · 0 评论 -
【大模型量化】OliVe:硬件友好的A4W4量化方案
基于Transformer的大型语言模型(LLM)[77]在过去几年中取得了巨大的成功。这种成功通常是通过越来越大的模型大小实现的:模型大小每两年增长240倍,显著超过硬件进展(每两年3.1倍)[24]。因此,LLM的推理变得具有挑战性和成本。例如,最近基于Transformer的LLMOPT-175B[90]具有1750亿参数,无法适应具有80GB内存的最新高端H100GPU。量化[6,7,21,22,72,74,79,93]是降低大型模型推理成本的最有效的硬件方法之一。原创 2024-01-20 15:19:08 · 1172 阅读 · 1 评论