自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

强化学习曾小健

强化学习、大模型、AIGC、AGI

  • 博客(264)
  • 资源 (7)
  • 收藏
  • 关注

原创 Llama3-8×8b-MoE github

本项目基于Meta发布的进行开发。即将MLP复制8份做为8个专家,创建随机初始化的router,添加负载均衡损失,其余参数权重保持不变,搭建一个热启动的MoE模型。这种方式能够极大地降低从头开始训练一个MoE模型的成本,便于快速的在下游任务中微调使用。

2024-07-09 11:57:44 833

原创 什么是MoE大模型,又具备哪些优势?

MoE,全称为Mixed Expert Models,翻译过来就是混合专家模型。MoE并不是什么最新技术,早在1991年的时候,论文[1]就提出了MoE。我们知道,模型规模是提升模型性能的关键因素之一,这也是为什么今天的大模型能取得成功。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。MoE 的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,您可以显著扩大模型或数据集的规模。

2024-07-09 11:11:36 1187

原创 百万个混合专家模型[论文翻译]

随着隐藏层宽度的增加,标准Transformer 架构中的前馈 (FFW)层会导致计算成本和激活内存线性增加。稀疏专家混合 (MoE) 架构已成为通过将模型大小与计算成本解耦来解决此问题的可行方法。最近发现的细粒度MoE 缩放定律表明,更高的粒度可以带来更好的性能。然而,由于计算和优化方面的挑战,现有的 MoE 模型仅限于少数专家。本文介绍了PEER(参数高效专家检索),这是一种新颖的层设计,利用乘积密钥技术从大量小型专家(超过一百万)中进行稀疏检索。

2024-07-09 11:05:49 1076

原创 MAE (Masked AutoEncoder):更快!更强!还更简单

本文介绍了在 CV 领域进入 Transformer 时代时具有里程碑意义的方法 MAE,通过随机 Mask 掉图片中较高比例 Patch,然后重构这些 Patch 的像素值,使我们能通过 Self-Supervised Pretraining 方式来预训练图像 Encoder 模型。与传统的 AutoEncoder 不同的是,MAE 采用了非对称设计:Encoder 仅在部分观测到的信号上操作(无需掩码标记),并采用轻量级 Decoder,从潜在表示和掩码标记中重构完整信号。

2024-07-09 10:33:20 870

原创 vision transformer 在clip里面怎么对图片编码

分割成固定大小的图像块(patches图像分割成 197 个特征维度为 768性投固定维度的向量空间位置编码,以保留图像的空间信息Transformer Encoder 中进行特征提取多头自注意力机制图像不同区域Encoder 的多层处理后,得到每个 patch 的高级特征[CLS] token 来聚合整个图像的固定维度的向图像的编码表示后续的对比学习通过这种方式,ViT 能够有效地捕捉图像的全局和局部特征,并且与CLIP 模型中的文本编码器产生可比较的特征表示。

2024-07-09 10:22:09 1819

原创 颠覆性突破 | 斯坦福推出“TTT新架构”,超越Transformer与Mamba,让模型{学会学习}!

解码器也是由多个相同的层堆叠而成,与编码器类似,但还包括额外的自注意力机制层,用于对编码器的输出进行进一步的上下文感知。如上图所示,在左边,我们观察到Mamba,当今最受欢迎的RNN之一,它的规模与强大的Transformer相似,显示出自2020年LSTM以来的巨大进步。然而,在右边,我们观察到。然而,现有的RNN,如Mamba和Griffin,都使用与Transformer不同的主干。然而,TTT-MLP(T)的强劲趋势表明,Transformer主干可能更适合我们评估之外的更大模型和更长的上下文。

2024-07-09 09:59:35 4582 1

原创 思路打开!腾讯造了10亿个角色,驱动数据合成!7B模型效果打爆了

本文提出了一种新颖的角色驱动数据合成方法,并推出了Persona Hub,一个包含10亿个角色的集合,展示了其在多种场景下促进合成数据创建的潜力,可能为发掘LLM的超级智能提供一种新途径。所有示例都表明,只要能够清晰描述要创建的逻辑推理问题的要求,就可以使用多种角色来引导LLM生成不仅满足要求,而且与角色高度相关的多样化逻辑推理问题,连“弱智吧”风格的问题也能轻松应对。如下图所示,为不同角色需要的工具定义接口,然后轻松转换为代码,(例如,出租车司机需要查看交通状况),从而极大地扩展了LLM提供的服务范围。

2024-07-09 00:37:57 947

原创 大神卡帕西强烈推荐:通过做项目来学习,坚持“1万小时定律”

我们正在进入的新范式,大语言模型就像CPU一样,使用Token而不是字节,并且有一个上下文窗口而不是RAM,这就是大语言模型操作系统(Large Language Model OS, LMOS)。OpenAI在内部探索了大量的项目,我们聘请了一些非常优秀的人才,许多人的项目并未取得太大进展,但有些人的项目确实取得了成效。我需要训练集,评估集,我需要在PyTorch中的训练循环,我需要配置文件,我需要日志目录,我需要引入 ResNet,我需要做检测,我们正在进行回归和分类。实际上,我并不喜欢这幅画。

2024-07-09 00:25:26 685

原创 生成式人工智能失败的一个重要原因在于“咬文嚼字”

有些标记间距奇特会导致转换器出错。例如,标记化器可能将"once upon a time"编码为"once"、"on"、"a"、"time",而将。表示:"对于语言模型来说,'词'到底应该是什么,这个问题很难解决,即使人类专家达成一致,模型可能仍会认为进一步。为"once"、"on"、"a"、"。甚至可以是单个字符,如"f"、"a"、"n"、"t"、"a"、"s"、"t"、"i"、"c"。fantastic",也可以是音节,如"fan"、"tas"和"tic",,"Hello"并不等同于"HELLO"。

2024-07-09 00:20:58 841

原创 Pre Norm 和 Post Norm 各自的优缺点?

但是 Pre Norm 也并不是都是好的,这篇论文指出,Pre Norm 有潜在的(表示塌陷) representation collapse 问题,具体来说就是靠近输出位置的层会变得非常相似,从而对模型的贡献会变小。即使加了 warm up,对warm up 参数的设置也很敏感,比如 warm up step 在500 步时,不同的lrmax 的 BLEU 一个31,一个还不到3。的均值为0,方差都为1,且相互独立。早期的很多模型都用的是 Post Norm,比如著名的 Bert。

2024-07-09 00:04:30 3144 1

原创 大模型面经—GQA(Grouped Query Attention)和MHA、MQA的区别及代码

此外,GQA的实现并不复杂,可以通过对现有MHA模型进行少量的训练调整来实现,这使得从MHA到GQA的过渡相对容易。在大模型技术中,GQA(Grouped Query Attention)是一种注意力机制,它介于。之间进行插值,旨在实现更快的推理速度和接近MHA的模型质量,是高负载系统优化的有力工具。,最终将结果合并,以捕获序列的不同方面信息。具体来说,GQA通过分组的方式,减少了需要。的数量,从而减少了内存的使用,同时由于。2024年07月07日 10:43。)之间,旨在结合两者的优点,

2024-07-08 16:03:09 2133

原创 lru顺序是什么LRU(Least Recently Used)顺序是一种缓存逐出算法,用于决定哪些数据应该被移除以腾出空间。在LRU算法中,当缓存达到其最大容量时,最长时间未被使用的数据项将

LRU(Least Recently Used)顺序是一种缓存逐出算法,用于决定哪些数据应该被移除以腾出空间。在LRU算法中,当缓存达到其最大容量时,它是一种简单有效的算法,可以提供相对较好的性能,尤其是在数据访问模式呈现局部性原理时。据在过去被访问过,它在未来被访问的可能性更大。在实现LRU缓存时,可以使用各种数据结构,如。这种算法的基本思想是:如果数。内存管理、数据库缓存、操作系统的页面置换。LRU算法通常用于计算机科学中的。双向链表则保持了数据项的访问顺序。最长时间未被使用的数据项。

2024-07-08 15:54:16 226

原创 一文速览vLLM支持的大模型推理技术和优化

通过Marlin内核,我们能够实现对模型参数的量化,从而减少模型的存储空间和计算量,提高模型在部署和推理过程中的性能和效率。Marlin内核通过特定的算法和优化策略,能够在保持模型精度的同时,显著提升模型的推理速度,从而为用户提供更加快速和高效的推理体验。速度和效率: 在生成式任务中,传统的贪婪解码或束搜索算法可能需要完整地搜索整个解码空间,这在大规模模型和长序列情况下会导致计算资源和时间的浪费。推测性解码通过提前终止、多假设生成等技术,能够在保证一定质量的情况下,显著提高解码速度和效率。

2024-07-08 15:52:25 2717

原创 CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)

原创 Aitrainee AI进修生 2024年07月08日 07:43 湖南https://github.com/THUDM/CodeGeeX4,时长08:31Hi,这里是Aitrainee,欢迎阅读本期新文章。这款模型是专门为编程任务训练的,基于之前的 GLM 4-9b 模型,GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数,因此在本地设备上运行非常方便。官方称这是 CodeGX4 系列最新的开源模型,是一个多语言代码生成模型,持续在 GLM 49b 基础上训练,大大提

2024-07-08 15:47:07 2083

原创 xLSTM成功杀入医学图像分割领域,取代Mamba成为新SOTA!魔芯科技联合多单位推出

xLSTM成功杀入医学图像分割领域,取代Mamba成为新SOTA!魔芯科技联合多单位推出我爱计算机视觉2024年07月04日 23:06江苏近年来,Mamba作为一种处理长距离依赖关系的计算模块,在医学图像分割领域取得了显著进展。而近期,来自浙江大学,魔芯科技,中科大等单位的研究人员将Mamba替换为xLSTM,提出 xLSTM-UNet(xLSTM-UNet can be an Effective 2D \& 3D Medical Image Segmentation Back

2024-07-08 14:50:30 846

原创 大模型训练太难了-难点

大模型时代最宝贵的算法人才,就是这些拿钱和时间砸出来的实践经验,能总结一套训练方法论的人才,有实际经验跑过几百个实验的老师傅,普通人完全没条件没资源。就算是openAI在训练gpt4的时候也被极其困扰,他们用了一些meta learning的方式,用一些小模型的表现来预测更大的规模的表现,有人说大模型嘛,简单,给我卡就行,等到老板真给你买来了1000张卡你就知道有多难了,老板说,小王,卡买来了,三个月给我搞出来。所以,即使是有丰富经验、充足的数据集和庞大硬件资源,训练大模型依然是困难重重的。

2024-07-08 14:45:42 833

原创 Qwen VL架构及其原理[多模态大模型]、OpenCLIP

AnswerQwen-VL是一种多模态大模型,旨在同时处理和理解文本与图像信息。

2024-07-08 14:27:23 3046

原创 厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA

多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳,且缺乏相应的Benchmark来评估模型在这些任务上的性能。近日,来自厦门大学纪荣嵘团队提出了一个全新的。

2024-07-08 14:04:23 780

原创 近40个中医药AI大模型已亮相,产学研医界“大玩家”云集

1”即华佗中医药大模型创新中心 ,“3”是产业交易平台、产业数据平台、产业大模型服务平台,“N”为线上交易、药材追溯、检验检测、中药材知识普及等,赋能中医药产业升级。(如果您在医疗、医保、医药领域具有独到专长,掌握真正有行业启蒙价值的见解、观点,愿意传播新知、启发新智、共享新思维,那么我们将尤为欢迎您入驻我们的。发现,《华佗中医药大模型建设方案》称,将充分利用华为的算力、算法优势,以及“中国药都”的中医药政策、区域、资源、数据优势,构建。它们也能在不到一盏茶的功夫,把你的脉象“摸”个门儿清。

2024-07-08 13:51:44 1732

原创 大模型LLM不同 RAM 配置计算出的估计速度或 t/s。 (假设CPU不是瓶颈)

https://www.reddit.com/r/LocalLLaMA/comments/14uajsq/anyone_use_a_8_channel_server_how_fast_is_it/

2024-07-08 12:26:00 191

原创 Transformers Code Agent 击败了 GAIA 基准!

2008 年的画作《乌兹别克斯坦的刺绣》中,哪些水果是 1949 年 10 月远洋客轮早餐菜单的一部分,后来该客轮被用作电影《最后的航行》的浮动道具?使用每种水果的复数形式。一个有趣的发现是,如果我们不提供计划的先前版本作为输入,分数就会上升。例如,在上面的 GAIA 问题中,唯一重要的信息是“乌兹别克斯坦的刺绣”这幅画的图像。它周围的任何东西,比如我们在博客上找到的,对于更广泛的任务解决来说通常都是无用的。可以说,如果有比我们当前的编程语言更好的方法来严格表达详细的动作,它就会成为一种新的编程语言!

2024-07-08 12:15:20 884

原创 支付宝发布多模态医疗大模型,联合20家机构启动AI医疗共建计划

在2024世界人工智能大会“可信大模型助力产业创新发展论坛”上,支付宝展示了其在医疗领域的AI技术进展:发布多模态医疗大模型,并推出多款数智化解决方案,包括医疗可信一体机和可信云。大会现场,支付宝、人民卫生出版社、北京大学医学部、浙江省卫生健康委、厦门市卫生健康委员会、浙江省人民医院、上海交通大学医学院附属仁济医院、北京大学人民医院、复旦大学附属肿瘤医院、上海市第一人民医院等20多家机构和企业联合发起了AI医疗共建计划,共同探索大模型应用及各类专科模型的创新研发。LLM评测榜单promptCBLUE。

2024-07-08 12:07:11 1062

原创 详解T5架构

与T5不同,LLaMA(Large Language Model Meta AI)是Meta AI发布的一系列大型语言模型,专注于提高较小模型的性能,而。、130亿或700亿参数的版本,旨在使小型组织也能部署这些模型,而无需昂贵的计算时间或基础架构投资 4。T5 架构的这些特点使其成为一个灵活、强大的 NLP 模型,能够高效处理各种文本任务,并在多个基准测试中取得了优异的成绩。T5和LLaMA的主要区别在于它们的设计理念和应用场景。的应用场景,并推动了大型语言模型的民主化和开源研究 45。

2024-07-08 11:54:50 1472

原创 T5架构和主流llama3架构有什么区别和优缺点、transformer中encoder 和decoder的不同、交叉注意力[大模型面试]

T5和LLaMA各有优缺点,适用于不同的应用场景。T5的Encoder-Decoder结构使其在多任务处理和迁移学习上表现出色,但训练复杂度较高。LLaMA的Decoder-only结构简化了模型,提升了生成任务的性能,并通过开源促进了研究和应用,但其训练成本较高且任务适应性较单一。选择使用哪种模型应根据具体的应用需求和资源情况来决定。

2024-07-08 11:35:20 2301

原创 开放医学LLM排行榜:对医疗保健领域的大型语言模型进行基准测试LLM Medical Benchmark

它是医学模型、数据集、基准和跟踪会议截止日期的中心枢纽,促进了人工智能辅助医疗保健领域的合作、创新和进步。此外,随着电子健康记录 (EHR)、医学文献和患者生成的数据的指数级增长,LLM 可以帮助医疗保健专业人员提取有价值的见解并做出明智的决策。它不促进这些模型的分发、部署或临床使用。评估完成后,您的模型的得分将添加到排行榜中,以便您将其表现与其他提交的模型进行比较。如果您对人工智能与医疗保健的交叉点充满热情,对为医疗保健领域构建模型充满热情,并且关心医学法学硕士的安全和幻觉问题,我们邀请您加入我们。

2024-07-08 11:20:14 1302

原创 parameter-efficient-moe github项目页面

MoV 和 MoLoRA这个存储库包含该论文的官方代码:“将专家混合推向极限:用于指令调整的极其参数高效的 MoE ”。代码库建立在T5X上,它定义模型和训练循环;Flaxformer,它定义模型计算;Flax,它定义低级模型层;以及Jax,它提供执行我的 LaTeX 图像安装数据集用于训练和评估的数据集应使用SeqIO进行缓存。我们使用已准备好的bigscience/P3数据集。对于数据集准备,我们参考bigscience/t-zero存储库。代码组件。

2024-07-08 11:04:56 870

原创 transformers deepspeed集成文档

DeepSpeed由零冗余优化器 (ZeRO) 提供支持,是一个用于训练和将超大模型拟合到 GPU上的优化库。它分为多个 ZeRO 阶段,每个阶段通过对优化器状态梯度、参数进行分区以及启用到 CPU 或NVMe 的卸载来逐步节省更多 GPU 内存。DeepSpeed 与Trainer 类集成,设置都会自动为您完成。但是,如果您想在没有情况下使用 DeepSpeed ,Transformers 提供了一个类。在指南中了解有关将 DeepSpeed 与结合使用的更多信息。

2024-07-08 10:42:14 1034

原创 互联网泡沫重演!股市或因人工智能(AI)而面临大规模崩溃

虽然人工智能泡沫尚未确定,但许多投资者依然保持谨慎,担心如果美国经济继续强劲增长且科技股持续上涨,市场指标可能会更加紧张。JonesTrading的首席市场策略师迈克·奥罗克指出,泡沫通常源于真实、积极的发展,这些发展激发了人们的热情,并促使他们愿意支付高价。例如,NVIDIA的预期市盈率为40倍,远低于思科在2000年3月的131倍。2000年1月,也就是市场见顶的几个月前,看涨情绪达到了75%。当前,AI热潮、坚韧的经济状况以及强劲的公司收益,共同推动了标准普尔500指数创下新高,自。

2024-07-08 10:37:52 437

原创 将专家混合推向极限:参数效率极高的 MoE 指令调节

专家混合 (MoE) 是一种众所周知的神经架构,其中一组专门的子模型以恒定的计算成本优化整体性能。然而,由于需要将所有专家存储在内存中,传统的 MoE 带来了大规模的挑战。在本文中,我们将 MoE 推向了极限。我们通过独特地将 MoE 架构与轻量级专家相结合,提出了参数效率极高的 MoE。我们的 MoE 架构优于标准参数高效微调 (PEFT) 方法,并且仅通过更新轻量级专家即可与完全微调相媲美 - 少于 1% 11B 参数模型的百分比。此外,我们的方法可以推广到看不见的任务。

2024-07-08 10:10:00 1446

原创 HuggingFace进军机器人:发布LeRobot,无需硬件即可操作,大大降低机器人研发门槛,未来支持ROS!

🌟面向现实世界机器人的最先进的机器学习,旨在大大降低进入机器人技术的门槛,无需组装机器人即可开始使用的模拟环境,LeRobot 对于机器人学来说就像Transformers库对于NLP一样。Cadene在他的X账户(原Twitter)上发布了一系列推文,表达了他的观点:“人工智能的下一步是进入我们的物理世界。Cadene 在 Github 上现在可用的 LeRobot 库中发布了一些示例,展示了代码提供的机器人能力,包括训练机器人在未绘制的空间中导航和从视频中抓取物体……中实现您自己的格式。

2024-07-08 10:00:11 2907 1

原创 [论文翻译]SFT的数据构成如何影响LLM的能力

较大的模型在处理相同数据量时,通常能够展现出更好的性能,这表明模型规模是提升性能的一个重要因素。过程中,不同任务(数学推理、代码生成、通用人类对齐)数据构成对训练产生的影响。,性能提升趋于平缓,表明可能存在一个性能饱和点。保留通用能力,但可能导致先前学习的专业能力。专业数据的通用数据上进行第二阶段的SFT。2024年06月16日 13:08。导致专业能力受损,尤其是通用能力。,影响模型在特定任务上的表现。可以相互促进,提高模型性能。,而数据的组成比例影响较小。大语言模型在监督式微调。在数据量有限的情况下,

2024-07-07 17:10:44 1055

原创 一次讲清模型并行、数据并行、张量并行、流水线并行区别nn.DataParallel[分布式]

通过这种行切分的方式,张量并行能够有效地将大型矩阵分散到多个GPU上,既解决了单GPU内存不足的问题,又保持了计算的数学等价性。总的来说,张量并行的核心思想是利用分块矩阵的计算原理,将大矩阵切分到不同设备上,通过通信操作保证数学等价性。当然,张量并行中的行并行(Row Parallelism)是一种特定的切分策略,它主要用于。假设我们有一个线性层,其权重矩阵大小为 [ℎ�����_���,ℎ�����_���],输入张量大小为 [����ℎ_����,ℎ�����_���]

2024-07-07 16:25:33 4055

原创 以色列启动超级计算机计划:全球AI格局必须有我一席之地!

以色列政府对AI技术的投资显示了他们对这一领域的重视,以及对保持其全球竞争力的决心。随着这台超级计算机的建立,以色列将在AI技术的研究和应用中获得更强的能力,进一步巩固其在全球科技领域的领先地位。,还将吸引更多的国际合作和投资。政府、产业和学术界的协同努力,将为以色列在AI领域带来更多的创新和突破。通过这一举措,以色列有望在未来的全球AI竞赛中占据更加稳固的领先地位,推动整个行业的发展。在前几天的AI会议上表示,虽然AI一直是以色列科技领域的友好伙伴,但如果不采取行动,这一快速发展的技术可能会变成敌人。

2024-07-07 14:46:41 548

原创 大模型算法岗常见面试题100道

LangChain是一个用于构建和运行大型语言模型应用的开源框架。它提供了一套工具和组件,帮助开发者将大型语言模型(如 GPT-3)与其他工具和API结合,以完成更复杂的任务。1、LangChain包含哪些核心概念?Components:可重用的模块,例如API调用、数据库查询等。Chains:将多个Components链接在一起以完成特定任务的流程。Prompt Templates: 用于指导语言模型生成输出的文本模板。Output Parsers:解析语言模型输出的工具。

2024-07-07 13:35:42 1215

原创 大模型面试之MoE高频问题

采用混合专家方法可以有效地充分利用多个专家模型的优势,每个专家都可以专门处理不同的任务或数据的不同部分,在处理复杂任务时取得更卓越的性能。由于每个专家模型相对独立,因此模型的决策过程更易于解释和理解,为用户提供更高的可解释性,这对于一些对模型决策过程有强解释要求的应用场景非常重要。模型的结构允许根据任务的需要动态选择激活的专家模型,实现对输入数据的灵活处理。这主要涉及到混合专家模型的分布式部署,其中不同的专家模型或门控网络可能分布在不同的计算节点上。,这使得它们的推理速度快于具有相同数量参数的稠密模型。

2024-07-07 13:25:56 1178

原创 牛了,复现kimi?一个集前后端一体的开源框架,内置Agent、RAG、联网.......

欢迎多多关注公众号,加入交流群,交个朋友吧,一起学习,一起进步!OpenAI Function Call的Agent问答对话。2行命令即可启动前后端服务,页面无脑操作,小白也能轻松上手。URL自动解析工具:复现了Kimi Chat网址发出来功能。网址,发出来),支持OpenAI/Azure API。支持用户管理,权限控制,支持聊天记录导入导出。LangChain实现了支持query改写。2024年07月06日 11:52。支持语音输入输出,支持图像生成。,支持Google搜索、的检索增强RAG文件问答。

2024-07-07 02:28:48 970

原创 混合专家MOE和混合变体MoV的不同

总的来说,MoV可以看作是MoE在参数效率和微调场景下的一种特殊实现。它保留了MoE的核心思想——利用多个专门化组件处理不同类型的输入,同时大大提高了参数效率,使其更适合于大型语言模型的微调任务。混合专家(Mixture of Experts, MoE)和混合变体(Mixture of Variants, MoV)是两种相关但有所不同的模型架构。每个输入token分配不同的专家权重。原始模型相似的结构,只在特定层。原始模型(如T5)的部分参数。每个专家都是一个完整的模型。大型语言模型的高效微调,

2024-07-07 02:13:40 365

原创 结合混合专业与Lora,MoLora微调技术 MoV(混合变体)

MoLoRA(Mixture of Low-Rank Adaptation)是一种参数高效的微调技术,旨在优化大型语言模型,特别是在计算资源有限的情况下。它结合了混合专家(MoE)和低秩适应(LoRA)的概念,以提高模型性能,同时保持较低的计算成本。

2024-07-07 02:10:37 1076

原创 MING-MOE:通过低阶适配器专家的稀疏混合增强大型语言模型中的医学多任务学习

像 ChatGPT 这样的大型语言模型在自然语言理解和生成方面已经取得了巨大进步,在包括医学领域在内的各个学科中都证明了其价值。尽管取得了进步,但由于医疗任务固有的复杂性和多样性,通常需要多任务学习能力,因此挑战仍然存在。以前的方法虽然有益,但在现实应用中存在不足,因为它们需要在推理时进行特定于任务的注释,从而限制了更广泛的泛化。本文介绍了 MING-MOE,一种新型的基于专家混合 (MOE) 的医学大语言模型,旨在管理多样化且复杂的医疗任务,而不需要特定于任务的注释,从而增强其在广泛数据集上的可用性。

2024-07-06 21:05:12 896

原创 Mixtral 8x7B的原理解读:Mixtral of Experts

原创 NatureAI2024年01月16日 22:29北京。

2024-07-06 19:23:07 1020

搜索引擎概览 searchengine

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目 类型 分区 摘要 精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能,探讨不同提示策略对LLMs编码性能的影响,直接比较LLMs与人类程序员的编程能力,评估LLMs在不同编程语言之间生成和翻译代码的能力,以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估 会议 包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性,探讨ChatGPT在接收到反馈后纠正代码的能力,以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu

2024-10-21

[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs

[MDPI水刊-非SCI]Program Code Generation with Generative AIs

2024-10-21

Evolving code with a large language model

Evolving code with a large language model

2024-10-19

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

avx2_tensorflow1.9.0_win,avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.whl

2020-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除