自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 马斯克开启军备竞赛,xAI筹集60亿美元

埃隆·马斯克于去年夏天创立了 xAI,今天宣布筹集 60 亿美元资金,称将帮助xAI“将首批产品推向市场,构建先进的基础设施,并加速未来技术的研发”。

2024-05-28 19:08:46 897

原创 斯坦福报告解读3:图解有趣的评估基准(上)

技术性能处于第二章节主要是回顾下现在的人工智能技术走了多远,从总体视角总结当前AI技术发展以及AI模型评估基准现状,再回到各个模态深入分析,以便于观察各个模型在不同课题面前的性能表现以及评估基准。

2024-05-28 16:54:02 583

原创 AI架构设计7:TGI

vLLM适用于需要高效内存管理和并行计算的大规模语言模型推理,特别是在资源受限的环境中表现优秀。其主要优势在于高效的内存使用和灵活的并行处理能力,但需要细致的配置和优化。而TGI则专注于提升文本生成任务的推理速度,适用于需要高效文本生成的应用场景。其主要优势在于推理速度优化和模型压缩,但主要针对特定任务进行优化,量化可能会影响模型精度。选择哪一个系统取决于具体的应用需求。

2024-05-28 16:48:38 352

原创 斯坦福报告解读2:2024基本概览

《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika、Jack Clark等人员和组织合著,旨在追踪、整理、提炼并可视化与人工智能(AI)相关各类数据,该报告已被大多数媒体及机构公认为最权威、最具信誉的人工智能数据与洞察来源之一。2024年版《人工智能指数报告》是迄今为止最为详尽的一份报告,包含了前所未有的大量原创数据。

2024-05-27 15:55:10 597

原创 AI架构设计6:vLLM

今天挑选几个颇具特色的主流部署工具来谈谈,例如vLLM、LLAMA.cpp和TGI等工具,它们各自都提供各自的部署模式,本文对于数据分析师乃至数据科学家,还是刚接触AI部署的新兵,相信可以为读者打开一扇窗户进行快速的了解。

2024-05-27 15:51:55 700

原创 斯坦福报告解读1:前言

《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika、Jack Clark等人员和组织合著,旨在追踪、整理、提炼并可视化与人工智能(AI)相关各类数据,该报告已被大多数媒体及机构公认为最权威、最具信誉的人工智能数据与洞察来源之一。

2024-05-26 20:49:45 640

原创 Octo 精武门? :开源的通用机器人模型

Octo是为构建开源的、广泛适用的通用机器人操作策略所做的持续努力。它是基于Transformer的扩散策略,采用Open X-Embodiment数据集中的 80万个机器人操作片段来进行预训练。它支持灵活的任务和观察定义,并且可以快速微调到新的观察和动作空间。即将推出两个初始版本的 Octo,分别是Octo-Small(27M参数)和Octo-Base(93M参数)。

2024-05-26 20:42:56 1095

原创 ViT:1 从DETR说起

卷积神经网络目前在不同的计算机视觉图像识别任务中处于领先地位,Vision Transformers (ViT) 最近成为卷积神经网络CNN的有力替代品。在计算效率和准确性方面,ViT 模型的表现几乎比目前最先进的CNN高出 4 倍。

2024-05-25 19:23:01 1025

原创 大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究

Anthropic的模型可解释性团队,一直想和大模型的灵魂交流,最近在研究Claude 3 Sonnet的内部的参数结构和工作原理时,获得十分有趣的结论。总所周知,大模型基于人工神经网络,里面的神经元的激活模式运用十分广泛。

2024-05-25 19:20:16 1030

原创 AI架构设计5:CN+AI的三国杀

本文最后的图展示了气势磅礴的AI+CN(云原生)的技术栈,潜藏着无限的杀机。还在云原生的时候,研发和运维一直围绕着Devops进行两国杀。CN+AI的时代,数据科学家加入了战局,彻底变成三国杀。边界的不断互相渗透,全栈的人才最宝贵,抑或要找到新型的跨团队合作模式。

2024-05-24 10:00:54 820

原创 MIT提出基于Transformer的Cross-Layer Attention:江湖骗子还是奇思妙想

键值(KV)缓存对于加速基于Transformer的大型语言模型 (LLM) 的解码至关重要。多查询注意力(MQA)和分组查询注意力(GQA)通过允许多个查询头共享单个键/值头,可以有效地减少 KV 缓存大小。跨层注意力(CLA)通过在相邻层之间共享键和值头来进一步实现这一点,从而在保持准确性的同时将 KV 缓存大小减少 2 倍。CLA针对位于传统帕累托前沿的MQA进行改进,在推理过程中实现更长的序列长度和更大的批量大小。

2024-05-24 09:53:38 790

原创 AI架构设计4:理解AI云原生

泛AI架构设计这个专栏主要关注围绕着AI运用于实际的业务场景所需的系统架构设计,包括业务数据治理、模型训练与管理、模型部署与调度。整体基于云原生技术,旨在通过开源领域的LLMOps或者MLOps技术,充分运用低代码平台构建高性能、高效率和敏捷响应的AI中台。

2024-05-23 19:10:48 833 1

原创 轻松读懂FlashAttention2

​FlashAttention属于AI加速器,要读懂它需要先具备Transformer的背景知识以及注意力机制,最后才到FlashAttention。随着大模型优化技术的层出不穷,里面的kernel fusion技术将会越来越频繁的被提及,例如在Mamba中也被用于加速。因此借着FlashAttention的这个机会更加深入的了解下GPU。

2024-05-23 19:07:24 861

原创 AI架构设计3:GPU运算模型

上一章节已经介绍了显卡的基本结构,由内存和计算单元SM组成。那么显卡的运算模型是什么样子?它如何将机器学习的任务转化为合适的运算指令?当然这里不针对Cuda编程展开细节的讨论,但是还是需要对它的运算模型有一定的了解。

2024-05-22 12:27:12 334

原创 微软Copilot+ PC:Phi-Silica

昨日微软宣布推出一种新的、更微型的小语言模型 (SLM)Phi-3-Silica,专为Copilot+ PC设计。Copilot+ PC本身配备强大神经处理单元 (NPU) 的个人计算机,能够应付AI计算。基于Windows的Phi-3-Silica仅仅拥有3B参数,是Phi-3系列中最小的。

2024-05-22 12:23:45 1055

原创 AI架构设计2:GPU架构分析

在继续设计AI平台的架构设计之前,需要对GPU有着深入的理解。那么就伴随着本栏目深入浅出的学习GPU。从更高维度去看GPU,基本的模型如同下图,一般而言GPU会有PCIe的接口和CPU进行连接。换句话说,就是你拿到了一块GPU,在主板上找到对应的槽口插入即可。

2024-05-21 11:40:24 1011

原创 优雅谈大模型9:大模型的激活函数

实验证明“大激活”这种现象在各种LLMs中广泛存在。这表明它不限于特定模型,而是这些模型的共同特征之一。尽管输入数据有所变化,这些大的激活值在很大程度上保持不变。这表明它们不受输入数据的影响,而是作为模型的固有属性存在。大激活充当LLMs中不可或缺的偏置项,它影响着模型的注意力机制,决定一些特定的部分获得更多的关注。

2024-05-21 11:34:20 771

原创 2024年人工智能7大趋势

人工智能 (AI) 的发展轨迹将继续吸引全球各行各业。在这个不断变化的环境中,剖析塑造人工智能发展轨迹至关重要。综合行业思想领袖和风险投资家的见解,可以从其中的一角定义2024年人工智能格局。所有的思考都围绕着一个问题:人工智能在塑造创新和人类社会的未来方面发挥着怎样的关键作用?

2024-05-20 09:10:57 428

原创 Chameleon:早期融合混合模态的基础模型

Meta研究人员提出了Chameleon,这是一种混合模态的基础模型,有助于生成和推理文本和图像交叉的场景,从而实现全面的多模式建模。与传统模型不同Chameleon采用统一的架构,通过将图像标记为类似于文本的方式,平等地对待这两种模式。这种方法被称为早期融合,允许跨模式无缝推理,这种架构需要调整Transformer的架构和FineTuning策略。

2024-05-20 09:08:37 869

原创 AI架构设计1:概览

AI平台的架构涉及的方面很广,按照系统领域设计可以分为应用服务域、策略管理域、知识管理域、AIops域和算力支撑域。按照基础架构的角度可以分为算力、存储、网络包括GPU集群的调度与搭建。

2024-05-19 10:52:14 227

原创 基于BERT的医学影像报告语料库构建

CAMIR语料库凭借其独特的事件结构与概念标准化结合的设计,连接了高度专业的放射学语言与机器学习算法。使海量非结构化的影像报告得以转化为结构化数据,为科研人员、临床医生及医疗软件开发者提供了宝贵的研究素材与开发资源。

2024-05-19 09:41:23 575

原创 小白也会SQL:自动化SQL大模型(下)

综上,若需要构建定制化文本到SQL的大模型,可以参考这份论文。其中给出的一些范式还是具有实操的价值。

2024-05-18 16:11:27 912

原创 轻松读懂FlashAttention 下

FlashAttention是一种无需任何近似即可加速注意力并减少内存占用的新算法。许多组织和研究实验室采用FlashAttention来加速他们的训练和推理。尽管FlashAttention在发布时已经比优化基线快 2-4 倍,但它仍然有相当大的空间。FlashAttention仍然不如优化矩阵乘法 (GEMM) 运算快,仅达到理论最大 FLOPs/s的25-40%。

2024-05-18 16:03:25 984

原创 小白也会SQL:大模型改变交互方式(中)

在人工智能与自然语言处理交汇点,有一种技术正悄然改变与数据交互的方式——将日常语言转化为精准SQL查询。这一“text-to-sql”转换任务,使非专业人士也能轻松驾驭复杂的数据库操作,极大地拓宽了数据应用的边界。

2024-05-17 08:11:06 877

原创 轻松读懂FlashAttention 上

​FlashAttention属于AI加速器,要读懂它需要先具备Transformer的背景知识以及注意力机制,最后才到FlashAttention。随着大模型优化技术的层出不穷,里面的kernel fusion技术将会越来越频繁的被提及,例如在Mamba中也被用于加速。因此借着FlashAttention的这个机会更加深入的了解下GPU。

2024-05-17 08:02:33 965

原创 小白也会SQL:大模型改变交互方式(上)

现有前沿方法往往依赖于封闭源代码的大型语言模型,它们虽然功能强大,却伴随着模型透明度缺失、数据隐私风险增大以及高昂推理成本等难题。有没有既开放、高效又安全的替代方案呢?鲁班模锤今天带来的论文《CodeS: Towards Building Open-source Language Models for Text-to-SQL》正在尝试破局。

2024-05-16 08:32:24 786

原创 Mamba:7 VENI VIDI VICI

序列模型的效率与有效性之间的权衡取决于状态编码(压缩)的程度:追求高效性一定要求具有较小的状态,追求有效性一定要求状态包含更多的上下文信息。而在Mamba中的指导思想是选择性:或者重点关注,或者过滤掉无关的输入从而具备较强的的上下文感知能力。

2024-05-16 08:06:29 1453

原创 优雅谈论大模型8:神经网络与矩阵

上个章节的神经网络是为了解Transformer或者Mamba做好铺垫,在和后辈交流过程中发现有个障碍,那就是向量和矩阵。其实向量和矩阵的表达方式不是所有人都很习惯。在继续下面的章节之前小编认为有必要将向量、矩阵和神经网络做下补充解释。

2024-05-15 07:37:02 743 1

原创 TimesFM: 预训练的时间序列基础模型

TimesFM是一种预测的基础模型,在包含1000亿个现实世界的大型时间序列语料库上进行了预训练,在来自不同领域和粒度的各种公共基准上显示了令人印象深刻的zero-shot的性能。

2024-05-15 07:32:07 1200

原创 GPT-4o: 从最难的“大海捞针”基准看起

该测试旨在检测大型模型是否能从长文本中提取出这些关键信息,从而评估模型处理长文本信息提取的能力,这可以反映LLM对长文本的理解基础能力。GPT-4o甚至可以捕捉声音的细微差别,并产生不同情感风格的反应,包括唱歌。GPT-4 Turbo是OpenAI之前最先进的模型,它接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像的内容等任务。任务介绍在OpenCompass的NeedleBench框架中,为了全面评估模型在长文本信息提取和推理方面的能力而设计的难度增加的测试方案。

2024-05-14 18:34:03 1011 2

原创 优雅谈论大模型7:重新审视神经网络

在继续往下的旅程之前,神经网络的基本知识十分重要,因为它涉及到后面大模型参数微调内容。于是就先停下来将一些基础知识讲明白。同时审视下神经网络的原理与背后的数学解释。如此可以更加优雅的理解大模型,当然受益的不仅仅是大模型技术,对于其他的深度神经网络也是十分重要。

2024-05-14 18:00:57 936 2

原创 优雅谈论大模型6:RAGII

RAG存在三种范式。左边为普通模式,由索引、检索和生成三部分组成。中间是进阶版本,它围绕检索前和检索后提出了多种优化策略,其流程与普通版相似,仍然遵循链式结构。最后模块化的进一步发展之前的模式,整体上也拥有更大的灵活性。整个过程不在局限于顺序检索和生成,开启了迭代查询和自适应检索等方法,有点像代理(Agent)。

2024-05-13 16:28:10 203 1

原创 Vidur: 出手只需1小时,瞬间节省20万美元

在将大模型部署到生产线的时候,针对大型语言模型 (LLM) 的部署优化成本高昂。并行策略,批处理技术和调度策略等多维度的因子组成了大模型部署的配置。要摸索出不同维度的最优的组合策略,需要多次的进行实验以便确认LLM应用程序工作负载。这个过程其实耗时耗力,在微软的推动下,诞生了一种大规模、高保真、易于扩展的,专门针对LLM推理性能模拟的框架-Vidur。

2024-05-13 16:22:38 929 1

原创 优雅谈论大模型5: RAG

众所周知,大模型以及一些预训练的模型在训练完毕之后会在其参数存储了大量的压缩资讯。但是这样的参数是通过固定的语料库训练而成,训练完毕之后这个模型已经固定了。然而外部资讯瞬息万变,加上大模型本质上为一种概率模型,所以会存在很多问题。打个比方,它没有办法知晓最近发生的事情,同时也会针对一些问题一本正经的胡说八道。

2024-05-12 18:50:51 503 1

原创 Mamba:6 线性RNN

正如Mamba论文中所指出的,其原因是线性RNN无法选择性地忘记输出向量中的信息。如果权重接近 0,则每次输入后输出向量将设置为0,实际上模型将始终立即忘记当前输入之前的任何内容。如果权重接近1,则输出向量在与权重相乘时不会改变,因此输出向量将累积来自观察到的所有输入的信息。然而对于自然语音模型而言是需要它能够根据看到的输入来决定何时存储信息以及何时忘记信息。不过整体而言,线性RNN将RNN拉回了生死线。

2024-05-12 18:46:16 1096 1

原创 优雅谈论大模型4:初识Token

在继续前行之前,需要先停下来澄清下Token这个词,以及如何将原始的语料转化为Token,在细究背后的原理之后会更加优雅的理解大模型。任何的资讯都可以生成语料,而这些语料需要被机器理解以及供后续的模型训练,那么最常见的做法是将一段文字先切片,然后一一对应的转化为数字或者向量输入模型。

2024-05-11 20:39:36 764 1

原创 Mamba:5 并行扫描

Mamba自从出道就一直被拿来和Transformer对比,文章巨多,带着标题的爆炸性字样“颠覆Transfomer”,“全面包围”等等。文章深浅不一,小编认为其背后的设计思路以及演化过程更加重要。为此本专题将从山上有座庙开始,沿着RNN、SSM、S4、HIPPO一路走来。期间抛弃冗杂的文辞,以更接地气的模式协助读者打开新的逻辑思维。

2024-05-11 20:29:36 1144 1

原创 优雅谈论大模型3:算力配置

α和β的取值分别为0.5和0.5。故事还没有结束,好事者发现Gopher这个模型,若按照训练它的总算力结合研究成果,它其实只需要63B的参数,以及1.4T的样本即可以达到最优的效果。的前提下,如何权衡训练样本(Token)和模型参数(Size)两者的资源分布,毕竟两者相乘的6倍为一次训练所需的总算力,因此Token和Size的分布也就成了跷跷板。本着看热闹的不嫌事大的精神,好事者决定用Gopher等同的训练总算力,然后按照最佳配置训练新的模型Chinchilla和Gopher比比看,进而证明研究是有效的。

2024-05-10 19:35:35 582 1

原创 xLSTM:拳打Transformer,脚踢Mamba?!

​记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。在Transformers、Mamba、KAN之后,长短期记忆 (LSTM) 架构的发明者Sepp Hochreiter和他在NXAI的团队推出了一种称为扩展LSTM (xLSTM) 的新变体。

2024-05-10 19:30:02 1177 1

原创 优雅谈论大模型2:模型顿悟

大模型领域的技术和模型日新月异。如何读懂一个模型,需要先理解语料、算力以及模型参数之间的关系,例如,如何预估大模型的运算所需要的参数,如何预估大模型的训练时长,一定规模参数的大模型喂入多少量级的语料才是最优,或者有没有在某种情况下模型越大任务的效率越差。

2024-05-09 14:42:53 361

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除