自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(118)
  • 收藏
  • 关注

原创 LLM基础模型系列:Prefix-Tuning

Prefix Tuning和Prompt Tuning最大的区别就是向每层的Transformer Block添加可训练的张量,而上一期的Prompt Tuning只是在输入的时候添加。

2024-07-21 11:49:45 327

原创 优雅谈大模型:“System2”与“System 1”

研究人员探索了三种System 2方法——RaR、S2A 和 BSM,这些方法已经成功提炼到新的LLM,这个新的模型与System 1相比,产生了更好的结果,而且成本低于System 2。然而这种方法是有局限性,只能适用于特定的任务。

2024-07-21 11:44:13 314

原创 数据跨境法案:美国篇下

近年来,随着全球数字化的加速发展,数据已成为国家竞争力的重要基石。在这样的背景下,中国软件和技术出海的场景日益丰富。本系列邀请到在跨境数据方面的研究人员针对海外的数据跨境政策进行解读。

2024-07-20 16:53:17 462

原创 本周当之无愧:小模型周

Microsoft的Phi系列、阿里巴巴的Qwen2和Meta的 MobileLLM表明,如果经过深思熟虑的设计和训练,小型模型可以取得令人印象深刻的结果。但是,有关这些模型的数据管理和训练的大部分详细信息尚未公开。

2024-07-20 16:51:11 1066

原创 SpreadsheetLLM:微软对Excel编码的“摊膀伏”

Excel的特点是二维数据格式、灵活的布局和多样化的格式选项。微软最近引入了SpreadsheetLLM,开创了一种高效的编码方法,用于释放和优化LLMs在电子表格上的强大理解和推理能力。

2024-07-19 21:49:31 860

原创 百万专家小专家:“N个小皮匠”?!

随着隐藏层宽度的增加,标准Transformer架构中的前馈 (FFW) 层会导致计算成本和激活内存的线性增加。稀疏混合专家 (MoE) 架构已成为解决此问题的可行方法,它将模型大小与计算成本分离。

2024-07-19 21:47:16 505

原创 白话无人驾驶:2 运动规划

最近萝卜快跑成为具有争议的热点,小编认为这个时候各地将无人驾驶提速也是无奈之举,个中原因请自行揣摩。无人驾驶技术现在在很多的闭环场景已经在运用。真正的端对端技术,目前FSD算是一面大旗。

2024-07-15 22:11:37 924

原创 FlashAttention3:“GEMM”就是比较快!

FlashAttention-3比使用FP16的FlashAttention-2 快1.5-2.0倍,即H100理论最大FLOPS利用率为 75%。使用FP8 时,FlashAttention-3 达到接近 1.2 PFLOPS。

2024-07-15 22:09:20 821

原创 白话无人驾驶:1风暴来袭

根据最新的消息,在2024世界人工智能大会上,上海发放了首批完全无人驾驶智能网联汽车示范应用许可,即“完全无人载人车牌照”。​首批获得许可的企业包括AutoX安途、小马智行科技、百度智行科技和赛可智能科技。

2024-07-13 15:03:35 994

原创 LLM基础模型系列:Prompt-Tuning

大型预训练语言模型的规模不断扩大,在许多自然语言处理 (NLP) 基准测试中取得了最先进的结果。自GPT和BERT开发以来,标准做法一直是在下游任务上微调模型,这涉及调整网络中的每个权重(即模型调优)。

2024-07-13 15:01:00 641

原创 RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

开源项目RWKV是一个“具有 GPT 级别LLM性能的RNN,也可以像transformer并行训练。它主要是解决了Transformer的高成本。注意力机制是 Transformer 霸权背后的驱动力之一。

2024-07-11 21:29:20 1045

原创 LLM基础模型系列:Fine-Tuning总览

参数高效微调(PEFT)是微调一种比较好的技术,它不是端到端地训练完整的模型,而是固定预训练的模型权重,并且在微调期间仅调整少量特定于任务的参数。这种方法大大减少了内存开销,简化了存储/部署过程,并允许使用更易于访问的硬件进行微调LLMs。

2024-07-11 21:27:00 685

原创 数据跨境法案:美国篇上

近年来,随着全球数字化的加速发展,数据已成为国家竞争力的重要基石。在这样的背景下,中国软件和技术出海的场景日益丰富。本系列邀请到在跨境数据方面的研究人员针对海外的数据跨境政策进行解读。

2024-07-07 20:19:58 577

原创 优雅谈大模型:揭开计算机视觉任务神秘面纱

人工智能在第四次工业革命发挥着至关重要的作用,它广泛的融入日常生活,例如Google助手、Siri、智能手机摄像头、社交媒体过滤器、自动标记、医疗成像、导航等,所有这些技术都切实的改进和增强日常活动的便利性和习惯。大模型技术发展到现在已经趋于稳定,而加入视觉的多模态大模型才开始兴起,它除了日常生活,还会广泛的融入到工业智造、无人驾驶和机器人等领域。这里计算机视觉就十分重要,它在捕获实时图像、提炼知识以及自主预测和分类图像方面是都不断地进步。计算机视觉使计算机能够解释和检测图像中的模式,其主要目的是复制人

2024-07-06 16:34:49 719

原创 NASA和IBM推出INDUS:高级科学研究的综合大模型

在最近的一项研究中,来自美国宇航局和IBM的一组研究人员合作开发了一种模型,该模型可应用于地球科学,天文学,物理学,天体物理学,太阳物理学,行星科学和生物学以及其他多学科学科。

2024-07-06 09:30:20 1069

原创 CVPR 2024最佳论文:“神兵”的组合器 Generative Image Dynamics

CVPR 2024的最佳论文来自谷歌、美国·加州大学圣迭戈分校。两篇都来至于视频生成领域,可见今年外界对视频生成领域关注度很高。今天的这篇是“Generative Image Dynamics”,Google Research发布的。

2024-07-04 22:20:53 1570

原创 2024 AI工程师世界博览会

6月24日至6月27日在旧金山举行的 AI 工程师世界博览会是AI 从业者和爱好者的首要活动之一。本次年度会议展示了人工智能技术的最新进展,并提供了对行业趋势的宝贵见解。

2024-07-04 21:15:05 542

原创 CVE-2024-6387漏洞预警:尽快升级OpenSSH

OpenSSH维护者发布了安全更新,其中包含一个严重的安全漏洞,该漏洞可能导致在基于glibc的Linux系统中使用root权限执行未经身份验证的远程代码。该漏洞的代号为regreSSHion,CVE标识符为CVE-2024-6387。

2024-07-03 19:32:12 642

原创 解锁Diffusion Model: 初识Stable Diffusion、DALL-E、Imagen

现在的Stable Diffusion、DALL-E、Imagen背后都有比较类似的架构。抽象出来分为三个部分:1 文字Embedding、2 文字和图的Diffusion生成具有特定意义的中间向量、3 将最终的中间向量丢到解码器生成图片。

2024-07-03 19:30:52 1332

原创 Mojo: AI开发的革命性编程语言

Mojo设计理念的核心在于巧妙地利用多级中间表示 (MLIR),这是一个强大的框架,可在各种AI硬件架构之间实现无缝可扩展性。通过巧妙地利用MLIR,Mojo消除了对复杂且容易出错的硬件的代码优化的需求,使开发人员能够充分利用AI硬件的潜力

2024-07-02 09:34:19 923

原创 优雅谈大模型14:最近频繁曝光的GGUF

GGUF(GPT-Generated Unified Format)是一种高效存储和交换大模型预训练结果的二进制格式,由llama.cpp创始人Georgi Gerganov定义。目前HuggingFace陆续的支持包括模型检索过滤等。

2024-07-02 09:30:59 974

原创 Hugging Face发布重量级版本:Transformer 4.42

Hugging Face 宣布发布Transformer 4.4.2,该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型,支持新工具和检索增强生成 (RAG),提供 GGUF 微调,并整合了量化的 KV 缓存,以及其他改进。

2024-06-30 13:48:57 611

原创 编码大模型系列:Meta创新的“代码编译优化”的LLM

LLM Compiler建立在Code Llama的基础上,增强了对编译器中间表示 (IR)、汇编语言和优化技术的理解。该模型已在546B个LLVM-IR和汇编代码的庞大语料库上进行了训练,并经过了指令微调。

2024-06-30 10:44:35 1113

原创 资料导览(持续更新)

行文风格多变。清新而不脱俗,深入但又浅出。跟踪而不跟风,细腻但又抽象。给大家带来大模型领域乃至其他科技领域的最轻松但又最潮的独特解读。整体遵从条线分割,纵横交错的网线在编织内容。

2024-06-29 23:06:36 364

原创 PAE:从潮流报告中提炼有效产品属性

本文将介绍PAE,一种用于包含 PDF格式的文本和图像的产品属性提取算法。目前大部分的方法侧重于从标题或产品描述中提取属性,或利用现有产品图像中的视觉信息。与之前的工作相比,PAE从潮流趋势报告的PDF文件中提取属性,提取的属性包含了未来的时尚趋势,然后将这些属性和零售商的产品目录对比,以便于提前做出预判和规划。

2024-06-29 19:11:12 507

原创 小模型家族又新增成员Gemma2

Google发布了Gemma 2,这是其最先进的开放LLMs系列的最新成员,目前可以在Hugging Face Hub上找到4个开放式模型(2个基本模型和 2个微调模型)。

2024-06-28 13:11:15 485

原创 白话EAGLE2:解锁大模型的“打草稿”技术

EAGLE-2是一种加速大型语言模型(LLM)推理过程的技术。具体来说,它采用了基于推测性采样(speculative sampling)的技术,它通过引入动态草稿树和草稿模型的置信度分数来提高LLM的推理效率。EAGLE-2能确保模型生成的文本概率分布不变,也使得其成为一种无损加速算法。

2024-06-28 13:08:24 1395

原创 俯视LLM的灵魂:一文搞懂稀疏自动编码器

稀疏自动编码器 (SAE) 最近因机器学习模型的可解释性而变得流行(尽管SAE自 1997 年以来一直存在)。机器学习模型正LLMs变得越来越强大和有用,但它们仍然是黑匣子,如何看穿LLM的灵魂。

2024-06-27 23:04:51 1317

原创 CVE-2024-37032漏洞预警:尽快升级Ollama

由Wiz Research发现的 CVE-2024-37032是开源 AI基础设施项目Ollama 中一个易于利用的远程代码执行漏洞。该漏洞源于平台模型服务功能中的输入验证不当。具体而言,攻击者可以通过向 Ollama 服务器发送特制请求来利用此缺陷,这可能导致在主机上执行任意代码。

2024-06-27 23:00:54 679

原创 TSLANet:时间序列模型的新构思

具体来说,利用傅里叶分析来增强特征表示并捕获长期和短期相互作用,同时通过自适应阈值来减轻噪声。此外还引入了交互式卷积块,并利用自监督学习来改进 TSLANet解码复杂时间模式的能力,并提高其在不同数据集上的鲁棒性。

2024-06-25 21:38:55 861

原创 优雅谈大模型:LangChain Vs. LlamaIndex

LlamaIndex和LangChain的对比其实是一个很复杂的话题,若需要用一句话来总结,LlamaIndex是数据之王,而LangChain是LLM应用程序开发的多面手。

2024-06-25 21:36:54 935

原创 Cephalo:专门用于仿生设计的多模态视觉大型语言模型

麻省理工学院(MIT)的研究人员推出了Cephalo,这是一系列专为材料科学应用设计的多模态视觉语言模型(V-LLMs)。Cephalo旨在弥合视觉感知和语言理解之间的差距,以分析和设计仿生材料。Cephalo 利用复杂的算法从科学文献中检测和分离图像及其相应的文本描述。它使用视觉编码器和自回归转换器集成这些数据,使模型能够解释复杂的视觉场景,生成准确的语言描述,并有效地回答查询。

2024-06-24 17:58:18 913

原创 ViT:3 Compact Architecture

本文先来看看Compact Architecture的优化方向。神经网络架构优化法是指设计轻量级和高效的模型,同时需要在下游任务中保持高性能。这种方法的研究集中在2021年-2022年,紧凑架构对于算力不那么充裕的终端的确是一个很好的改进。

2024-06-24 17:53:41 677

原创 ViT:5 Knowledge Distillation

知识蒸馏是一种技术,在这种技术中,较小的模型从更大、更复杂的模型中学习以复制其性能,从而在保持预测准确性的同时实现高效部署。视觉转换器(ViT)的知识蒸馏 (KD)技术可分为两种主要类型:同态KD 和异态KD。

2024-06-23 19:17:30 1073

原创 ViT:4 Pruning

​视觉转换器(ViT)架构已经广受欢迎,并广泛用于计算机视觉应用。然而,随着 ViT 模型规模的扩大,可训练参数直线上升,从而影响了部署和性能。因此如何进行有效的优化成为热点领域,各种的研究方向层出不穷。下图左一为基本的ViT块,左二到左五代表着紧凑架构优化法、剪枝优化法、知识蒸馏法和量化优化法。橙色虚线的部分代表每个领域重点优化的组件。

2024-06-23 19:13:20 1085

原创 量子计算:1 从薛定谔的猫开始

量子计算是以量子力学的叠加态原理及非局域纠缠态为基础,研究信息处理的科学。它带来了一种处理信息的全新观点。量子信息科学目前发展十分迅速,无论是量子计算、量子信息传输和存储还是量子加密算法,都在不断地贴近更加现实的应用场景。

2024-06-21 22:43:01 1542 3

原创 Claude3.5:编码螃蟹游戏就是这么轻松

Anthropic AI推出了Claude 3.5 Sonnet,这是其新Claude 3.5模型系列的首次发布。Claude的最新版本带来了AI功能的重大进步。它可在Claude.ai和 Claude iOS应用程序上免费获得。该模型可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI访问。收费模式为3美元每百万个输入和15美元每百万个输出,具有200K的上下文窗口。

2024-06-21 22:39:26 451

原创 Meta悄咪咪的发布多款AI新模型

Meta 的基础 AI 研究 (FAIR) 团队发布了一些最新的AI模型,包括可以处理和生成多模态文本和图像的 Chameleon、Multi-token prediction模型以及文本到音乐模型JASCO。

2024-06-20 18:45:48 325

原创 “开放”的大模型到底有多“开放”?!

有趣的是研究人员使用一个基于证据的框架,该框架区分了开放性的 14 个维度,从训练数据集到科学和技术文档,从许可到访问方法。通过调查 45 多个生成式人工智能系统(包括文本和图像)。虽然开源一词被广泛使用,但许多模型只是“开放权重”,许多模型的拥有者并没有提供完整的有关训练和微调数据的信息来进行科学、法律和监管审查。

2024-06-20 18:42:25 614

原创 一文读懂OpenGVLab带来的最新视觉预训练框架

​LCL首次探索了使用交错图像文本数据,进行视觉模型预训练。这篇文章从理论上证明了latent compression等价于最大化因果模型的输入和输出之间的相互信息,并将该目标进一步分解为两个基本的训练任务,最终得到了更鲁棒的视觉表征。

2024-06-18 22:08:42 1152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除