自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 问答 (1)
  • 收藏
  • 关注

原创 Salesforce AI研究: 从奖励建模到在线RLHF工作流

该研究对RLHF的基础理论、偏好模型的构建以及迭代策略优化等内容进行了深入的讲解,展示了扎实的理论基础和实践经验。

2024-05-15 00:10:14 1016 1

原创 RAG 面向 LLM: 基于检索增强的大语言模型调研

作为最基础的数据挖掘技术之一,检索旨在理解输入查询并从外部数据源中提取相关信息。它在各个领域都有广泛的应用,如搜索、问答和推荐系统。例如,搜索引擎(如谷歌、必应和百度)是检索在行业中最成功的应用;它们可以过滤和检索与用户查询最相关的网页或文档,使用户能够有效地找到所需信息。同时,通过在外部数据库中有效地维护数据,检索模型可以提供可靠和及时的外部知识,从而在各种知识密集型任务中发挥重要作用。由于其强大的能力,检索技术已成功地集成到人工智能生成内容(AIGC)时代的先进生成模型中。

2024-05-14 20:45:49 1220 1

原创 新的语言学习系统: 记忆镶嵌

这篇论文提出了一种新的学习系统架构——记忆镶嵌,它由多个关联记忆网络协同工作来完成预测任务。记忆镶嵌具有与transformer类似的组合和上下文学习能力,但以更透明的方式实现。

2024-05-14 02:37:27 716

原创 LoRA Land: 310个经微调的大语言模型可媲美GPT-4

全面评估了LoRA微调在提升语言模型性能方面的有效性。通过在大量任务和基础模型上的实验,证实了LoRA作为一种参数有效微调技术的优势。4位量化LoRA微调模型能够以较小的开销达到甚至超过GPT-4的性能,这一结果非常振奋人心。

2024-05-13 11:27:39 898

原创 微软: 用于文本到语音合成(TTS)的语言模型方法VALL-E

从产业化的角度,VALL-E 在定制语音、有声内容创作等领域有广阔的应用前景。但是,如何平衡模型性能和部署成本,如何适配不同的硬件环境,也是工程师们需要考虑的问题。

2024-05-13 09:42:06 880

原创 GIAT: 蛋白质结构预测的新利器

瑞典Karolinska研究院在瑞典政府赞助下由Ben Murrell在AlphaFold 3最新报告后提出这篇论文提出了一种非常有趣和创新的方法来生成蛋白质骨架结构,称为生成式不变角度转换器(GIAT)。与现有的主要基于扩散模型和流匹配的方法不同,GIAT采用了类似于大型语言模型(如GPT)中使用的自回归方法,逐个氨基酸地生成蛋白质骨架。这种自回归建模方法的主要优势和创新点包括:它以序列生成的方式对蛋白质骨架建模,这更接近蛋白质合成的自然过程。每个氨基酸的放置都以前面氨基酸的位置为条件,这可以更好地

2024-05-13 02:07:31 282

原创 Google: 在新知识上微调大语言模型是否会鼓励产生幻觉?

当大型语言模型通过监督式微调进行对齐时,它们可能会遇到在预训练期间没有获得的新事实信息。人们经常推测,这可能会教导模型产生事实上不正确的回应的行为,因为模型被训练成生成没有基于其预先存在的知识的事实。在这项工作中,Google研究了这种暴露在新知识下对微调后模型利用其预先存在知识的能力之影响。为此,他们设计了一个受控的设置,专注于闭书问答,改变引入新知识的微调样本的比例证明,大型语言模型在通过微调获得新的事实知识方面存在困难,因为引入新知识的微调样本的学习速度明显慢于与模型知识一致的样本。

2024-05-12 20:37:50 711

原创 变色龙还是树懒:揭示大型语言模型在知识冲突中的行为

jianxie22@m.fudan.edu.cn, {zhang.13253, su.809}@osu.edu摘要通过向大型语言模型(LLMs)提供外部信息,工具增强(包括检索增强)已成为解决LLMs静态参数记忆局限性的一个有前景的解决方案。然而,当外部证据与其参数记忆冲突时,LLMs对这种外部证据的接受程度如何?我们对LLMs在知识冲突下的行为进行了第一次全面和受控的调查。我们提出了一个系统的框架来引出LLMs的高质量参数记忆,并构建相应的反记忆,从而使我们能够进行一系列受控实验。我们的调查揭示了LL

2024-05-12 16:44:38 636

原创 国外大模型使用成本比较

Groq的llama 3 70B、Databricks的DBRX Instruct、Cohere的Command r+,以及AnthropicAI的Opus,它们的性能和适用场景有所不同,因此选择哪个模型还需要考虑到您的具体需求和预算。如果需要具体的应用建议或进一步的成本分析,请提供更多详情。实际成本可能会根据具体的使用量、可能的折扣政策、订阅级别等因素有所不同。特别是大规模使用时,通常可以和服务提供商商议更优惠的价格。计算每种层级的LLM使用的大致总成本。

2024-05-10 13:13:06 292

原创 大模型背后的秘密公式: Q*?

值得注意的是,由于语言的顺序特性,token级MDP具有独特的树形结构(tree structure),即在给定输入提示(初始状态)的情况下,模型的每个决策都会导向一个全新的状态,这与一般的MDP(例如棋类游戏)不同。DPO算法的目标就是调整模型参数,使其所对应的奖励函数符合人类偏好,同时DPO能够学习任意密集奖励函数对应的最优策略。近年来,随着深度学习的发展,深度Q网络(DQN)等算法将神经网络用于逼近Q函数,取得了显著的成功,使得Q学习的思想得以扩展到大规模甚至连续的状态-动作空间中。

2024-05-10 10:24:07 773

原创 Llama 3 是怎么回事?Arena 数据分析

4 月 18 日,Meta 发布了他们最新的开放权重大型语言模型 Llama 3。从那时起,Llama 3-70B 就在 English Chatbot Arena 排行榜上迅速上升,拥有超过 50,000 次对战。Meta 的这一非凡成就对开源社区来说是个好消息。在这篇博文中,我们旨在深入探讨为什么用户将 Llama 3-70b 与 GPT-4-Turbo、Gemini 1.5 Pro 和 Claude 3 Opus 等顶级模型相提并论。

2024-05-10 08:40:53 682

原创 AlphaFold3: Google DeepMind的的新突破

AlphaFold 3采用了transformer和扩散模型,代表AI技术的通用性越来越强,同样的架构可以用在完全不同的领域上。

2024-05-09 23:04:42 568

原创 Meta FAIR: 深层网络不合理的低效性

该研究对实验细节的详细描述,包括所使用的模型、修复过程、评估方法以及各种消融实验,有助于读者全面理解该工作,并为未来的研究提供了坚实的基础。

2024-05-09 17:05:18 449

原创 AI 电话客服已经来临了

3\. Retell AI - 450 万美元。8\. Synthflow - 160 万美元。6\. vocode - 380 万美元。- 提供无代码工具、API 服务。- 提供无代码工具、API 服务。- 提供无代码工具、API 服务。- 每分钟 $0.09 美元。- 每分钟 $0.08 美元。- 每分钟 $0.05 美元。- 每分钟 $0.05 美元。- 每分钟 $0.25 美元。- 每分钟 $0.11 美元。- 每分钟 $0.08 美元。4\. Vapi - 不详。- 提供开源、API 服务。

2024-05-09 13:21:42 227

原创 基于自我对弈框架的偏好优化算法SPPO

大量实验结果表明,SPPO在AlpacaEval、MT-Bench等基准检验上的表现优于DPO、IPO等方法,在多个任务上展现了很强的"generalist"能力,并且这种优势在迭代更新中还能保持,很令人印象深刻。

2024-05-09 11:21:13 543

原创 Meta更低的训练成本取得更好的性能: 多token预测(Multi-Token Prediction)

多token预测是一种简洁而强大的语言模型训练范式。通过预测多个token,它能学到更丰富的上下文信息。同时并行化程度高,训练高效。

2024-05-09 03:02:03 854

原创 Transformer语言模型内部运作的机制

这篇综述论文对于理解 Transformer 语言模型的内部运作机制,以及目前在这个领域的最新研究进展,提供了全面而详尽的概览。通过系统性地介绍各种可解释性技术,并深入探讨它们揭示的模型内部行为,本文为相关研究人员提供了宝贵的参考。

2024-05-09 02:41:40 550 2

原创 矩阵:一个用于大型语言模型的贝氏学习模型

作者通过严谨的推导和分析,展示了贝氏学习框架在解释LLM行为上的强大潜力。这一理论工作不仅加深了我们对LLM的理解,也为后续的算法改进和工程实践带来了重要的启发和指引。

2024-05-09 01:56:57 944

原创 Agent Hospital: 一种可进化医疗代理人的医院模拟器

构建了一个全面的医院模拟环境Agent Hospital,涵盖了从患者发病到治疗、康复的整个闭环流程,为医疗AI的研究提供了一个极具价值的实验平台。

2024-05-08 16:54:30 1423 1

原创 用于视频大型多模态模型(Video-LMMs)的复杂视频推理和鲁棒性评估套件

这项工作全面评估了Video-LMMs在现实场景中应用所需的复杂推理和鲁棒性,揭示了现有模型的不足,为后续的算法改进和基准测试构建提供了重要参考。CVRR-ES有望推动Video-LMMs向更贴近人类理解和交互能力的方向发展。

2024-05-08 15:41:59 1116

原创 NVIDIA: RULER新测量方法让大模型现形

RULER基准的设计思路新颖,涵盖了检索、多跳跟踪、聚合、问答等不同类型的任务,能够全面考察LMs在长上下文理解方面的多种能力,弥补了之前工作的不足。合成任务虽然在真实性上有所欠缺,但能够灵活控制变量,有利于系统性的比较和分析。

2024-05-07 23:37:43 789

原创 Meta最新研究: Flash Attention 为何是系统性能瓶颈?

随着机器学习趋向于更大和更复杂的模型,模型训练过程变得越来越计算和资源密集。生成式AI的出现进一步推动了模型开发的边界,大型语言模型(LLMs)通常在数百或数千个GPU上训练数月。以LLaMA2的70-B参数模型为例,需要1,720,320 GPU小时来训练。对于如此长的训练作业,训练不稳定已成为日益严重的问题。正如Google的PaLM模型等工作中所报告的那样,训练不稳定通常表现为在整个训练过程中出现多达20次的损失峰值。这些损失峰值是代价高昂的,因为它们经常导致训练过程中断,需要停止并重新开始训练。

2024-05-07 22:51:30 830

原创 Kansformer?变形金刚来自过去的新敌人

这是一篇将数学理论与深度学习紧密结合,并在多个科学问题上进行实践的高质量论文。它不仅展示了KAN的强大性能,更重要的是,它体现了一种AI助力科学发现的新范式。尽管KAN目前还不够完善,但其背后的思想值得我们深入探索。

2024-05-07 20:59:13 706

原创 IBM的逆袭: Granite Code 模型

Granite Code 模型采用高质量的数据和独特的两阶段训练方式,有效融合了代码领域和自然语言领域的知识,大幅提升了模型的语言理解和推理能力。这是其性能优势的关键所在。

2024-05-07 19:38:32 687

原创 Prometheus 2: 一个专门评估其他语言模型的开源语言模型(续集)

与现有的开源评估语言模型不同,PROMETHEUS 2 模型能够有效地处理直接评估和成对排序(最普遍的两种评估方案),在这两种方案上都表现出优越的性能和一致的结果,显著缩小了与专有语言模型评估的差距。为了缩小与专有语言模型的差距,本文的作者们研究了统一两种基于模型的评估范式 - 直接评估和成对排序,以训练一个稳健的统一评估语言模型。通过合并在不同评估格式上训练的模型,即直接评估和成对排序,作者们旨在获得一个评估语言模型,不仅可以在两种格式下工作,而且表现出与专有语言模型一样好的评估性能。

2024-05-07 00:37:43 581

原创 医疗大型语言模型的評估基準

多年來,大型語言模型(LLMs)已成為一項突破性技術,在醫療保健的各個方面都有巨大的潛力。這些模型,如GPT-3、GPT-4和Med-PaLM 2,在理解和生成類人文本方面表現出卓越的能力,使其成為應對復雜醫療任務和改善患者護理的寶貴工具。它們在各種醫療應用中都顯示出前景,例如醫療問答(QA)、對話系統和文本生成。此外,隨著電子健康記錄(EHRs)、醫學文獻和患者生成數據的指數級增長,LLMs可以幫助醫療專業人員提取有價值的見解並做出明智的決策。 然而,儘管大型語言模型(LLMs)在醫療保健中有巨大的潛力,

2024-05-01 22:02:59 784 2

原创 CRISPR-GPT: Google 领军自动化基因编辑LLM Agent

当大家还在讨论AI是否能进行复杂推理的时候,另一个有"破坏力创造"的进步却在悄然发生。那就是AI与基因编辑技术的结合!!我曾经参与生物芯片公司的运营, 所以从实务上深入分析这个应用带来的影响, 但是如果产业知识对您过于艰涩, 您可以直接看我的结论。基因工程技术的引入彻底改变了生物医学研究,使得对基因信息进行精确修改成为可能。然而,创建一个高效的基因编辑系统需要对CRISPR技术和复杂的实验系统有深入的理解。虽然大型语言模型(LLM)在各种任务中表现出了前景,但它们往往缺乏特定知识,难以准确解决生物学

2024-04-30 23:42:33 1099

原创 医疗AI的一大步: Google Med-Gemini

在备受瞩目的MedQA测验中,Med-Gemini凭借独特的不确定性引导搜索机制,以91.1%的准确率刷新了纪录,比此前最好的Med-PaLM 2模型高出4.6个百分点。作为这一领域的领军企业之一,Google推出了Med-Gemini系列模型,为医疗AI技术的发展树立了新的里程碑。它在医疗记录的关键信息检索(MIMIC-III)以及医学教学视频问答(MedVidQA)等需分析海量文本的任务中均取得了最佳成绩,凭借情境学习能力超越了此前专门构建的系统,彰显了该模型在实际应用场景下的潜力。

2024-04-30 23:10:50 1635 4

原创 端对端的人工智能数据基础建设(图)

很多朋友看过我对建置端对端人工智能数据基础平台系统的那篇分享,这是花了很多时间绘制的,版权属于公司,跟大家分享,但是我还是要提醒,不要抄作业。即使是通用模型或套壳平台,AI的data infra仍然是很定制化的,如果你是为了个别公司或产业特殊需求想建置无代码或低代码服务上手AI数据中台,可以私信联系。

2024-04-28 19:09:39 196

原创 FlashSpeech: 创新零样本语音合成系统

这篇由香港科技大学、微软、萨里大学等机构合作完成的论文,提出了一种名为FlashSpeech的创新零样本语音合成系统。该系统旨在解决当前大规模零样本语音合成方法生成速度慢、计算成本高的问题,实现高效、高品质的语音合成。

2024-04-28 19:00:01 798 1

原创 SaaS: 回光返照还是浴火重生

2017年,美国行业从ASC 605改用ASC 606,一夜之间,有些公司变赚,有些就亏了。过去20年里,软件公司的FCFY平均有3%,稳坐龙头宝座。我还是要说,没有任何财务指标是完美的,它们都只能近似衡量企业的最终表现。如果这个论点没错,那上市软件公司的平均毛利率就会从72%掉到47%,其实差很大欸。想找最佳基本指标的投资人,应该把FCF也纳入他们的金融指标工具箱。现在是软件即服务(SaaS)的时代,开发和维护软件的成本可是持续的。对投资人或股东来说,FCF比常用的本益比更能反映公司的基本表现。

2024-04-28 18:37:49 222

原创 SPECTRA: 人工智能(AI)模型在分子序列数据集上的泛化能力

这篇报告很有价值,因为我曾经参与生物芯片公司的经营,而这篇报告中发表的麻州总院医师是我很要好的朋友,不过因为涉及更多的不同的专业知识领域,因此我尝试介绍大家从生命科学研究及新药突破的角度如何更多的让AI帮助现在医学有效完成创新工作来读这篇报告,如果您觉得很艰涩或与工作无直接相关可以跳过。总的来说,这项研究提出了一种更严谨、更全面的AI模型评估方法,填补了现有基准测试的不足。借由SPECTRA,我们可以建立更严谨的新药AI模型评估标准,加速可解释、可迁移的AI辅助药物设计系统的发展,提高新药研发的成功率。

2024-04-28 18:32:11 679

原创 对小白女友解释的的LLaMA-3

目前还不确定这些方法是不是每个模型都有用到,还是说 8B 和 80B 的版本只是用了不同的调整策略。不过,LLaMA-2 和 LLaMA-3 有一个很像的地方,就是都用了拒绝采样!拒绝采样是个可靠的方式,要让它work起来很容易。LLaMA-3 最酷的地方就是它用了一个"全部通通丢进去"的方法(就是 SFT、拒绝采样、DPO 和 PPO 啦!就像上面看到的,我们可以发现每做完一轮这个反复的调整过程,模型的品质就明显变好了。3. 用一个排序模型(是用人们的偏好数据训练的)来给这些结果打分数。

2024-04-28 18:23:54 325

原创 xLLM: 专业语言模型的新解

不过,正如我所指出,文章对 xLLM 的实际效能和普适性的讨论还比较少,可能还需要更多研究和实践来验证。总的来说,xLLM 提出了一个很有价值的思路,通过专业化和知识结构化来提升语言模型效能,这与我早年在 IBM 的经验不谋而合。1. 针对不同领域构建专门的语言模型,并提供定制化参数,这种"专业化"的做法有助于提升模型在特定领域的表现,降低计算成本,并避免大而全模型常见的"幻想"问题。5. 作者慷慨分享了完整的文档、代码和资源,这种开放的态度值得赞赏,有助于学界和业界对 xLLM 展开更多探讨和实践。

2024-04-28 18:16:49 507

原创 Snowflake 开源其大型语言模型 : 给自己挖坑??

接下来值得关注的是,Arctic 能在多大程度上帮助 Snowflake 实现其在 GenAI 领域的商业雄心,以及 Snowflake 是否能在与 Databricks、AWS 等对手的竞争中胜出。相比之下,Databricks 投入了更多资源,模型性能却不如 Arctic,要么是为宣传而夸大了训练数据量,要么是在数据处理和管理上技不如人。一、投入资源开发开源语言模型可能会分散 Snowflake 对其核心业务的注意力,但考虑到他们最近在战略和 AI 人才招募方面的大动作,这一举措也算合情合理。

2024-04-28 18:09:08 277

原创 我们离GPT-4V还有多远?

研究团队引入了三项简单的改进:(1)强大的视觉编码器:他们探索了一种持续学习策略,用于大规模视觉基础模型InternViT-6B,提升了它的视觉理解能力,并使其可以在不同的大型语言模型中转移和重复使用。值得注意的是,它甚至在四个特定基准测试中超过了领先的专有模型,如Grok-1.5V、GPT-4V、Claude-3 Opus和Gemini Pro 1.5,特别是在OCR相关的数据集如TextVQA、ChartQA和DocVQA上。此外,研究团队还调查了动态分辨率在各种多模态基准测试中的有效性。

2024-04-28 18:02:20 620

原创 数学家的学徒:智慧型人工智能如何改变定理证明

search\_proofs工具通过结合LLM生成的建议和现有的基于规则的搜索方法,进一步自动化了证明过程,探索潜在的证明路径。随着这一领域的研究进展,我们可以预期更多复杂和强大的基于LLM的工具将重塑数学研究和教育的格局。Lean Copilot的设计考虑到了当前基于LLM的定理证明方法中存在的问题,特别是在静态数据集上训练的模型与交互式证明助手的动态环境之间的脱节。想象有一个世界,数学家身边有一位人工智能学徒,能够提出独创的证明策略,自动化繁琐的计算,甚至在浩瀚的知识库中搜寻那个难以捉摸的缺失引理。

2024-04-28 17:54:55 351

原创 扩张注意力机制可以将上下文窗口扩展到10亿个token

"Dilated Attention"是一种非常创新的技术,可以将上下文窗口扩展到10亿个tokenDilated Attention是一种改进的注意力机制,使模型能够关注输入序列中更远的部分,而不会大幅增加计算成本。它的灵感来自于CNN中的扩张卷积。在标准的Transformer模型中,自注意力机制允许输入序列中的每个token关注所有其他token,导致复杂度为O(N^2),其中N是序列长度。当尝试扩展到非常长的序列(例如10亿个token)时,由于计算和内存限制,平方复杂度变得不可行。

2024-04-27 03:48:56 546

原创 2024年美国科技业待遇统计

他们为数据库编写代码并维护数据库,解决问题并评估用户趋势,以不断改进现有的数据系统。他们收集、评估和可视化数据,洞察见解,帮助公司做出明智的决策。软件开发人员是技术专业人员的统称,他们创建、实施和维护代码。他们领导软件开发项目,确保按时、按预算完成,并满足质量标准。他们负责管理数据架构师、软件开发人员和其他专业人员的团队。然后,他们使用这些信息来预测财务趋势。他们构建和维护数据管道,将原始数据转化为可用于分析的格式。他们设计软件和网站的用户体验,使其直观、易用。他们设计、开发和维护基于云的系统和基础设施。

2024-04-26 13:47:05 962 1

原创 Mozilla 开源 llamafile:大语言模型分发与部署新范式

自首发以来,在社区开发者的积极参与下,llamafile 迭代了多个重大版本,新增了一系列激动人心的特性,有力推动了 LLM 技术的普及。具体而言,llama.cpp 提供了一个通用的推理引擎,可以加载 LLaMA、GPT-J、GPT-NeoX 等主流模型,并执行高效的文本生成。在算法实现上,llama.cpp 对矩阵乘等关键路径进行了极致优化,充分利用了 SIMD、Loop Unrolling[9] 等现代 CPU 特性,再加上精心调教的多线程并行,使其在工业级服务器上的推理性能可比肩商用解决方案。

2024-04-26 05:05:59 789 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除