深度学习模型
文章平均质量分 93
剖析深度学习模型原理
智慧医疗
浙江大学研究生,专注于后端技术架构和人工智能算法的研究,具有多年大厂工作经验。
展开
-
MiniCPM:揭示端侧大语言模型的无限潜力
MiniCPM 是一系列端侧语言大模型,主体语言模型 MiniCPM-2B 具有 2.4B 的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。在当前最接近用户体感的榜单 MTBench 上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。原创 2024-02-04 14:29:23 · 2311 阅读 · 0 评论 -
清华系2B模型杀出,性能吊打LLaMA-13B
2 月 1 日,面壁智能与清华大学自然语言处理实验室共同开源了系列端侧语言大模型 MiniCPM,主体语言模型 MiniCPM-2B 仅有 24 亿(2.4B)的非词嵌入参数量。在综合性榜单上与 Mistral-7B 相近,在中文、数学、代码能力表现更优,整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。原创 2024-02-04 14:07:30 · 1701 阅读 · 0 评论 -
WeNet2.0:提高端到端ASR的生产力
全新的 WeNet 2.0 在各种语料库上比原来的 WeNet 实现了高达 10% 的相对识别性能提升,并提供了几个面向生产的重要特性。原创 2024-01-14 23:24:41 · 1471 阅读 · 0 评论 -
高效底座模型LLaMA
大型语言模型(Large Languages Models,LLMs)通过大规模文本数据的训练,展示了其根据文本指令或少量样本完成新任务的能力。这种少数示例的性质首次在规模足够大的模型中出现,导致了一系列聚焦于进一步扩大这些模型的工作。这些努力都是基于一个假设:模型参数越多,性能越好。然而,Hoffmann等人(2022)的近期研究显示,在给定的计算预算下,最佳的性能并非由最大的模型实现,而是由训练数据更多的较小模型实现。原创 2024-01-11 12:01:17 · 1634 阅读 · 0 评论 -
VALL-E X语音大模型,支持跨语言文本语音合成、语音克隆
本文提出了一种跨语言神经编解码器语言模型VALL-E X,用于跨语言语音合成。该模型可以通过使用源语言语音和目标语言文本作为提示来预测目标语言语音的声学令牌序列。实验结果表明,VALL-E X可以通过仅使用源语言语音作为提示来生成高质量的目标语言语音,同时保留未见过的说话者的声音、情感和声学环境。此外,VALL-E X有效地缓解了外语口音问题,可以通过语言ID进行控制。原创 2024-01-09 14:30:59 · 2772 阅读 · 0 评论 -
大模型LLM训练的数据集
随着新型AI技术的快速发展,模型训练数据集的相关文档质量有所下降。模型内部到底有什么秘密?它们又是如何组建的?本文综合整理并分析了现代大型语言模型的训练数据集。原创 2024-01-07 23:40:03 · 2700 阅读 · 0 评论 -
当大型语言模型(LLM)遇上知识图谱:两大技术优势互补
大型语言模型(LLM)已经很强了,但还可以更强。通过结合知识图谱,LLM 有望解决缺乏事实知识、幻觉和可解释性等诸多问题;而反过来 LLM 也能助益知识图谱,让其具备强大的文本和语言理解能力。而如果能将两者充分融合,我们也许还能得到更加全能的人工智能。原创 2024-01-07 23:18:18 · 2372 阅读 · 1 评论 -
PEFT: 在低资源硬件上对十亿规模模型进行参数高效微调
PETL是HuggingFace的一个高效微调模型的工具箱。参数高效微调 (PEFT) 方法可以使预先训练的语言模型 (PLM) 有效适应各种下游应用程序,而无需微调所有模型的参数。微调大模型的花费通常令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。 最近最先进的 PEFT 技术实现了与完全微调相当的性能。原创 2024-01-06 22:51:27 · 1126 阅读 · 0 评论 -
论文解读:P-Tuning v2: Prompt Tuning Can BeComparable to Fine-tuning Universally Across Scales and Tasks
提示调优只使用冻结的语言模型来调优连续的提示,这大大减少了每次任务的存储和训练时的内存使用。然而,在NLU的背景下,先前的工作表明,对于正常大小的预训练模型,即时调优并不能很好地执行。还发现,现有的提示调优方法无法处理硬序列标记任务,这表明缺乏通用性。论文提出了一个新的经验发现,即适当优化的prompt tuning可以在广泛的模型规模和NLU任务中普遍有效。它与微调的性能相匹配,同时只有0.1%-3%的微调参数。原创 2024-01-05 01:03:10 · 1266 阅读 · 0 评论 -
大语言模型LLM微调技术:P-Tuning
ptuning v2论文已经证明在不同规模大小模型和不同NLP任务上的有效性,结合最近大模型涌现后的微调热,清华相关实验室对 ChatGLM-6B 模型做了基于 P-Tuning v2的微调。需要微调的参数量减少到原来的 0.1%,结合模型量化和Gradient Checkpoint 等方法,最低只需要 7GB 显存即可运行了。原创 2024-01-03 23:04:26 · 2275 阅读 · 0 评论 -
大语言模型LLM微调技术:Prompt Tuning
Prompt本质上是对下游任务的指令,可以作为一种信息增强 。简单的来说,就是告诉模型需要做什么任务,输出什么内容。上文我们提及到的离散或连续的模板,本质上就是一种对任务的提示。当数据集不同(乃至样本不同)的时候,我们期望模型能够自适应的选择不同的模板,这也相当于说不同的任务会有其对应的提示信息。原创 2024-01-02 18:49:28 · 1875 阅读 · 0 评论 -
Embedding模型在大语言模型中的重要性
随着大型语言模型的发展,以ChatGPT为首,涌现了诸如ChatPDF、BingGPT、NotionAI等多种多样的应用。公众大量地将目光聚焦于生成模型的进展之快,却少有关注支撑许多大型语言模型应用落地的必不可少的Embedding模型。原创 2024-01-01 22:33:24 · 1059 阅读 · 0 评论 -
多模态大模型的前世今生
前段时间 ChatGPT 进行了一轮重大更新:多模态上线,能说话,会看图!微软发了一篇长达 166 页的 GPT-4V 测评论文,一时间又带起了一阵多模态的热议,随后像是 LLaVA-1.5、CogVLM、MiniGPT-5 等研究工作紧随其后,到处刷屏。大模型的多模态能力到底是怎么来的?原创 2024-01-01 22:16:16 · 2112 阅读 · 0 评论 -
Visual Transformer (ViT)模型详解
ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,虽然不是第一篇将transformer应用在视觉任务的论文,但是因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。原创 2023-12-31 23:50:53 · 31767 阅读 · 3 评论 -
大模型LLM的微调技术:LoRA
LoRA出自2021年的论文“LoRA: Low-Rank Adaptation of Large Language Models” LoRA技术冻结预训练模型的权重,并在每个Transformer块中注入可训练层(称为秩分解矩阵),即在模型的Linear层的旁边增加一个“旁支”A和B。其中,A将数据从d维降到r维,这个r是LoRA的秩,是一个重要的超参数;B将数据从r维升到d维,B部分的参数初始为0。模型训练结束后,需要将A+B部分的参数与原大模型的参数合并在一起使用。原创 2023-12-30 23:28:54 · 2420 阅读 · 0 评论 -
Stable Diffusion模型原理
Stable Diffusion是一种非常重要的随机过程,它能够描述许多自然和人工系统中的随机演化行为。这种过程可以被认为是一个基于随机漫步的一种扩散模型。在这个模型中,存在一些关键的参数,这些参数决定了过程如何演化,以及它的统计特性。在本文中,我们将详细介绍Stable Diffusion的原理,包括其定义、特性、和算法实现等方面。原创 2023-12-25 23:58:22 · 1961 阅读 · 0 评论 -
谷歌发布最强AI大模型Gemini(超越chatgpt4)
谷歌Gemini是一个基于深度学习的AI系统,但它与其他的AI系统有很大的不同。谷歌Gemini是一个能够理解和生成文本、代码和图像的多模态AI系统,也就是说,它可以跨越不同的数据类型,实现更复杂的推理和创造。谷歌Gemini的模型架构是结合了谷歌DeepMind的AlphaGo的强化学习和搜索树技术,以及GPT-4的大规模语言模型技术,形成了一个强大的多模态语言理解(MMLU)模型。原创 2023-12-13 17:18:47 · 1981 阅读 · 0 评论 -
深度学习:自注意力机制(Self-Attention)
自注意力机制(Self-Attention),有时也称为内部注意力机制,是一种在深度学习模型中应用的机制,尤其在处理序列数据时显得非常有效。它允许输入序列的每个元素都与序列中的其他元素进行比较,以计算序列的表示。这种机制使模型能够聚焦于输入序列中不同位置的关系,从而捕捉序列内的复杂依赖关系。原创 2023-12-11 00:44:14 · 10911 阅读 · 0 评论