大模型
文章平均质量分 91
详细讲解常用的大模型技术,如数据清洗,分布式部署,算法,模型部署,推理优化等常用知识。
fpga和matlab
专业即算法,算法即数学,数学即万物。2007年开始从事MATLAB算法仿真工作,2010年开始从事FPGA系统/算法开发工作。擅长解决各种算法仿真、建模、通信、图像处理、AI、智能控制等各专业问题。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
K折交叉验证中K值的计算方法
本文系统探讨了K折交叉验证中K值选择的理论与方法。首先阐述K折交叉验证的基本原理,即将数据集划分为K个子集进行重复训练验证。核心部分分析了K值对偏差与方差的影响:小K值计算成本低但方差大,大K值偏差小但计算成本高。随后介绍经典K值选择方法,包括经验法(如常用K=5或10)、基于偏差-方差分解的理论方法,以及动态K值选择和优化算法(网格搜索、随机搜索、贝叶斯优化)。文章强调K值选择需权衡计算成本与模型评估精度,并提供了实际代码示例说明不同优化方法的应用。原创 2025-05-26 16:24:08 · 1433 阅读 · 0 评论 -
置信区间与共形预测
文章摘要:本文介绍了置信区间、预测区间和共形预测的概念及其应用。置信区间用于估计总体参数的范围,反映估计的不确定性;预测区间则用于预测未来观测值的范围,反映数据的随机性和模型的不确定性。共形预测是一种模型无关的预测方法,通过构造预测区间,在无需假设数据分布的情况下,保证预测区间的覆盖概率不低于名义水平。文章还探讨了共形预测在序列预测中的应用,特别是在波士顿房价数据集上的应用,展示了共形预测在保证覆盖概率方面的优势。共形预测为高维、非结构化数据的不确定性量化提供了通用框架,具有广泛的应用前景,但其计算效率和分原创 2025-05-19 13:50:26 · 947 阅读 · 0 评论 -
大模型的常用加速推理方法
本文探讨了深度学习模型推理加速的多种技术策略。首先,并行化推理通过层间、层内和数据并行三种模式,将计算任务分配到多个处理单元,突破单线程性能瓶颈。其次,向量化推理利用SIMD指令集提高计算效率。循环分块通过优化缓存访问减少主存访问次数。算子融合将多个相邻算子合并,减少数据搬运和Kernel调用开销。量化推理通过降低数据精度减少内存占用和计算量。最后,文章强调多种加速方法的协同作用,如并行化与向量化结合、循环分块与算子融合结合、量化与并行化结合,以实现最优性能。这些策略共同构成了深度学习模型推理加速的综合优化原创 2025-05-18 20:20:22 · 1507 阅读 · 1 评论 -
无状态训练与有状态训练
无状态训练和有状态训练是机器学习中的两种不同训练方法。无状态训练假设每个训练样本独立,模型在处理每个样本时不依赖之前的信息,适用于处理独立同分布的数据,如图像分类。有状态训练则保留并利用之前样本的信息,适用于处理序列数据或具有上下文相关性的数据,如语言模型。无状态训练模型结构简单,训练速度快,易于并行化;而有状态训练模型结构复杂,训练速度慢,但能更好地捕捉数据中的长期依赖关系。两种方法的选择取决于具体任务的需求。原创 2025-05-14 23:37:21 · 1026 阅读 · 0 评论 -
生成式大模型的评价指标
生成式大模型的评价涉及多个指标,以全面衡量其性能和质量。困惑度用于评估语言模型的预测能力,值越低表示模型预测越准确。BLEU通过n-gram重叠度评估机器翻译质量,结合精确率和长度惩罚。ROUGE则基于召回率,评估自动摘要与参考摘要的重叠程度,适用于文本摘要和问答系统。BERTScore利用BERT模型的语义理解能力,通过计算生成文本与参考文本在语义空间中的相似度来评估质量,适用于多种自然语言生成任务。这些指标各有优势和局限性,实际应用中需根据任务需求选择合适的评价方法和指标组合。原创 2025-05-11 20:40:31 · 893 阅读 · 1 评论 -
Transformer微调预训练技术
Transformer微调预训练技术是一种强大的方法,可以利用预训练模型的知识快速适应各种下游任务,在自然语言处理、计算机视觉等多个领域都取得了显著的成果。在实际应用中,需要根据具体的任务和数据特点,选择合适的微调方法和优化策略,以获得最佳的模型性能。原创 2025-05-07 16:35:54 · 1029 阅读 · 0 评论 -
基于编码器和解码器的transformer架构
Transformer架构是一种基于自注意力机制的深度学习模型架构,最初用于自然语言处理任务,如机器翻译,后来也广泛应用于其他领域。它的核心特点是能够并行计算,有效处理长序列数据,并且能够自动学习文本中的长期依赖关系。Transformer架构主要由编码器和解码器两部分组成,两者都包含多个堆叠的相同层。此外,还包括输入嵌入层、位置编码层、输出层等组件。原创 2025-04-26 22:11:18 · 1268 阅读 · 0 评论 -
RNN注意力与自注意力机制
在自然语言处理(NLP)等领域中,模型需要处理长序列的数据,例如句子或文档。然而,传统的神经网络在处理长序列时可能会遇到困难,因为它们难以有效地捕捉序列中不同位置之间的长期依赖关系。注意力机制的出现就是为了解决这个问题,它允许模型在处理序列数据时,动态地关注输入序列中的不同部分,从而更好地利用序列中的信息。原创 2025-04-26 21:52:08 · 1077 阅读 · 0 评论 -
VIT构架与大型训练集
ViT将图像分割成一系列固定大小的图像块(patches),并将这些图像块线性映射为向量,然后加上位置编码(positional encoding)来捕捉图像块的位置信息,将其输入到 Transformer 编码器中进行处理。Transformer编码器由多个堆叠的自注意力(self - attention)层和前馈神经网络(feed - forward neural network)层组成,通过自注意力机制自动学习图像块之间的长程依赖关系,从而对图像的全局信息进行建模。原创 2025-04-24 11:49:25 · 991 阅读 · 0 评论 -
深度学习中卷积神经网络中的参数计算量分析
卷积神经网络(Convolutional Neural Network, CNN)作为深度学习领域的重要模型,在图像识别、目标检测、语音处理等众多领域取得了巨大的成功。在构建和优化 CNN 模型时,了解网络的参数量是至关重要的,因为参数量不仅影响模型的存储需求,还与模型的训练时间、计算资源消耗以及模型的泛化能力等密切相关。原创 2025-04-15 19:59:10 · 1314 阅读 · 0 评论 -
深度生成式AI模型详解
它关注的是数据的差异性,通过对不同类别数据特征的学习,构建一个分类器,用于判断新数据属于哪个类别。生成式模型致力于学习数据的分布,通过对训练数据的学习,生成与训练数据相似的新数据。它可以理解数据的生成过程,能够生成全新的数据样本,不仅仅是对已有数据进行分类。设数据序列为x=(x1,x2,⋯,xT),自回归模型通过学习条件概率P(xt∣x1,x2,⋯,xt−1)来生成数据。在文本生成中,能够根据前文生成连贯的后续文本。在图像生成中,可以通过在潜在空间中采样不同的点,然后解码生成不同的图像。原创 2025-04-15 15:27:13 · 1312 阅读 · 0 评论 -
Transformer模型架构概述
Transformer 架构是深度学习领域中一项具有重大影响力的创新,自 2017 年在《Attention Is All You Need》论文中被提出以来,它已经在自然语言处理(NLP)、计算机视觉(CV)等多个领域取得了巨大的成功,并成为了许多先进模型的基础架构。原创 2025-04-12 03:32:08 · 1499 阅读 · 0 评论 -
CPU训练、GPU训练及多GPU训练
深度学习训练是将数据输入到模型中,调整模型的参数(例如神经网络中的权重)以使其能够准确预测或分类新数据的过程。模型训练的主要目标是通过不断优化模型参数来最小化损失函数(例如,交叉熵、均方误差等),从而提高模型在测试数据上的泛化能力。常用的训练方式包括CPU训练、GPU训练以及多GPU训练。原创 2025-04-07 11:45:41 · 1121 阅读 · 0 评论 -
通过增加训练样本和优化算法解决过拟合现象
在机器学习和深度学习中,过拟合是一个常见且棘手的问题。当模型在训练数据上表现出色,但在未见过的测试数据上表现不佳时,就发生了过拟合。过拟合通常是由于模型过于复杂,学习到了训练数据中的噪声和异常值,而不是数据的真实模式。为了解决过拟合问题,我们可以从训练样本和算法优化两个方面入手。原创 2025-03-30 16:50:57 · 953 阅读 · 0 评论 -
权重剪枝技术理论概述
随着深度学习模型在计算机视觉、自然语言处理等领域的广泛应用,模型规模呈指数级增长。例如,GPT-4参数量达到1.8万亿,这对计算资源和部署环境提出了严峻挑战。权重剪枝(Weight Pruning)作为模型压缩的核心技术,通过删除冗余参数实现模型轻量化,同时保持性能稳定。原创 2025-03-30 16:28:28 · 931 阅读 · 0 评论 -
小样本学习概述
在传统监督学习范式中,模型需要大量标注数据才能达到理想性能。然而,在许多现实场景中(如医疗影像分析、稀有物种识别、历史文本分类等),标注数据极度稀缺。小样本学习(Few-Shot Learning, FSL)旨在解决这一问题,其核心目标是通过少量标注样本(通常为 1-5 个)训练模型,使其能够对新类别进行有效分类或回归。本文将深入探讨小样本监督学习的核心原理、数学模型及前沿方法。小样本监督学习通过元学习、生成模型、度量学习等技术,突破了传统监督学习对大规模数据的依赖。原创 2025-03-24 20:57:51 · 1110 阅读 · 0 评论 -
基于无标签数据的自监督学习理论研究与分析
无标签数据(Unlabeled Data)指未被人工标注或缺乏明确语义信息的数据。例如,一段未标注情感倾向的文本、一张未标记物体类别的图像,或一组未分类的传感器信号。这些数据本身仅包含原始特征(如像素值、文本词汇、时间序列等),但缺乏与特定任务直接相关的监督信号(如分类标签、回归目标)。无标签数据规模通常远超有标签数据,传统算法(如基于全连接层的神经网络)需消耗大量计算资源。半监督学习或自监督学习模型的训练需平衡标注与未标注数据的利用效率。原创 2025-03-22 23:40:07 · 947 阅读 · 0 评论 -
嵌入向量、潜空间向量以及表征的基本认识
例如,在一个简单的文本分类任务中,将输入句子中的每个单词通过预训练的词嵌入模型转换为向量,然后将这些向量拼接或平均等方式组合起来,作为后续神经网络层的输入。例如,在图像识别中,对于图像中的不同区域或特征,可以学习一种嵌入表示,使得相似的区域在嵌入空间中距离较近,不同的区域距离较远。:学习到的表征可以作为特征用于各种分类任务。例如,在自然语言处理的循环神经网络(RNN)或长短期记忆网络(LSTM)中,词嵌入向量作为输入序列,经过循环层的处理,能够捕捉文本中的长期依赖关系,从而更好地进行语义理解和任务处理。原创 2025-03-18 20:40:14 · 1182 阅读 · 0 评论 -
字节跳动COMET:MoE架构优化技术解析
在人工智能领域,随着模型规模与复杂度不断攀升,高效的模型架构优化技术成为关键。字节跳动开发的 COMET(Computation-communication co-Execution for Mixture-of-Experts Training),针对混合专家模型(MoE,Mixture of Experts)架构,有效解决了分布式训练中通信开销过大的难题,显著提升训练效率并降低成本。原创 2025-03-15 17:23:07 · 1698 阅读 · 0 评论 -
DeepSeek开源周开源的五个项目分析
实验数据表明,使用 DualPipe 能够将训练效率提升200% 左右,同时仅增加了1倍的激活内存峰值,在提升训练效率的同时,对内存资源的增加相对可控,使得在有限的硬件资源下能够更高效地训练大规模模型。通过采用EPLB,在大规模专家并行的应用中,能够将GPU的利用率提升至80%以上,最大限度地减少训练时间。例如,在一个具有大量专家的MoE模型训练任务中,使用EPLB后,训练时间相比未使用时缩短了30% - 50%,大大提高了模型的训练效率,降低了训练成本,同时也提高了模型在推理阶段的响应速度和性能稳定性。原创 2025-03-04 20:54:45 · 5321 阅读 · 3 评论 -
deepseek指令使用方法总结
目录1.基础指令1.1直接提问1.2内容生成1.3总结与解释2.格式控制指令2.1指定输出格式2.2结构化输出3.参数调整指令3.1 控制输出长度3.2 调整风格与语气3.3温度参数(创造性控制)4.高级功能指令4.1多轮对话控制4.2角色扮演4.3逻辑运算与数据分析5.优化与修正指令5.1迭代优化5.2错误修正6.特殊场景指令6.1多语言支持6.2安全边界设置7.实用技巧7.1复合指令7.2优先级符号7.3参考范例8.常见问题处理DeepSeek-R1作为一款源自国内的创新性大型模型,被视作国产 AGI的原创 2025-02-17 18:56:39 · 7461 阅读 · 1 评论 -
DeepSeek本地部署
DeepSeek的高性价比策略降低了AI部署的门槛,使得更多企业能够将AI技术应用于边缘计算场景。并且随着算力部署成本的降低,以前不少集中在大型中心的算力需求,有望向更多的小型设备、边缘设备集中,这是因为,DeepSeek的轻量化模型能够适应从高端服务器到普通消费级设备的多种场景。这意味着,边缘计算设备,如智能网联设备、工业质检设备、智慧交通设备等,将能够更好地支持AI应用。在部署前,我们首先要了解不同规模的deepseek对硬件的要求:下面我们以1.5B为例,介绍如何在本地进行部署。原创 2025-02-08 17:21:50 · 2835 阅读 · 0 评论 -
大模型蒸馏技术的理论分析与应用
模型蒸馏(Model Distillation)是一种在深度学习中用于压缩模型和提高模型效率的技术。其核心思想是将一个复杂的、性能较高的教师模型(Teacher Model)的知识迁移到一个相对简单的学生模型(Student Model)中,使学生模型能够在保持较好性能的同时,具有更小的模型规模和更快的推理速度。:教师模型通常在大规模数据上进行训练,学习到了丰富的特征表示和知识。通过模型蒸馏,将教师模型的这些知识传递给学生模型,帮助学生模型更好地学习和泛化。原创 2025-02-01 03:32:22 · 1958 阅读 · 0 评论 -
DeepSeek-R1,DeepSeek-V3,DeepSeek-VL,DeepSeek-V2,DeepSeek-R1-Zero各个模型区别
DeepSeek-VL:DeepSeek-VL2 系列有 DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别具有 10 亿、28 亿和 45 亿个激活参数。DeepSeek-V2:基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero-bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行。DeepSeek-VL:训练过程包括视觉-语言对齐、视觉 - 语言预训练、监督微调(SFT)三个阶段。原创 2025-01-29 23:07:55 · 13726 阅读 · 0 评论 -
DeepSeek-V3原理介绍与性能分析
DeepSeek-V3主要涉及到创新点包括混合专家(MoE)架构,多头潜在注意力(MLA)机制,多 Token 预测(MTP)训练目标,FP8混合精度训练框架,训练与部署效率的协同优化以及后训练阶段的创新知识蒸馏。原创 2025-01-26 15:28:50 · 6893 阅读 · 0 评论 -
大模型中Self-Attention与Flash-Attention原理概述
它不是预先计算完整的注意力矩阵,而是在计算小块输出时,根据需要动态地计算注意力分数和权重。例如,在计算一个小块Qi与其他小块Ki和Vj的交互时,仅计算当前小块所需的注意力分数和权重,并且在计算完成后,不存储完整的注意力矩阵,而是直接更新小块输出。例如,重复利用已经计算过的中间结果,避免重复计算相同的部分。在传统的自注意力计算中,需要先计算所有的注意力分数,然后进行 Softmax 归一化,最后计算加权求和。:在传统自注意力计算中,需要先计算完整的注意力矩阵,然后进行 Softmax 归一化,再计算输出。原创 2025-01-11 16:56:54 · 1396 阅读 · 0 评论 -
常见大模型——LLaMA模型
LLaMA(Large Language Model Meta AI)是由Meta开发的一种大规模语言模型,旨在提高自然语言处理任务的性能。LLaMA基于Transformer机构,并经过大规模数据训练,以便在多种语言任务中表现出色。LLaMA在Transformer结构的基础上,采用前置层归一化(Pre-normalization)和RMSNorm归一化函数(Normalizing Function)、SwiGLU激活函数,并使用了旋转位置嵌入(RoPE)。原创 2025-01-06 19:07:36 · 1543 阅读 · 0 评论 -
大模型从业方向——数据/平台/算法/部署
GAN 通过生成器和判别器的对抗训练,能够生成逼真的图像。算法工程师不断改进 GAN 的架构和训练方法,例如,通过引入条件生成对抗网络(cGAN),可以根据给定的条件(如类别标签、文本描述)生成特定的图像。例如,在 Windows 上可能需要安装特定的 GPU 驱动和 C++ 运行时库,在 Linux 上可能需要配置正确的环境变量和软件包依赖,以支持模型的运行。例如,为了保证 GPU 服务器的稳定运行,需要强大的电力供应和高效的冷却系统,因为 GPU 在高负载运行时会消耗大量的电力并产生热量。原创 2025-01-04 21:56:37 · 1451 阅读 · 0 评论 -
提高大模型服务吞吐率常用方法总结——投机采样/增大batchsize/continuous batching
所以采用 draft-and-verify 的方式,使用 drafter(小参数模型)一次生成多个候选 tokens,然后让大参数模型对所有生成的 tokens 并行验证,达到一次生成多个 tokens 的目标,从而提高吞吐率。假设大模型生成一个 token 的时间为T1,小模型生成n个候选 tokens 的时间为T2,大模型验证个候选 tokens 的时间为T3,在理想情况下,当T2+T3=T1时,就可以在接近大模型生成一个 token 的时间里面生成了n个 tokens,从而提高吞吐率。原创 2025-01-03 17:03:50 · 1598 阅读 · 0 评论 -
大模型中的常用推理优化技术
大模型中的常用推理优化技术,详细介绍下低比特量化,分布式优化,算子优化,访存优化,服务并发优化,lookahead decoding,投机采样,美杜莎头等。下面分别对这些常用的大模型推理优化技术进行介绍。原创 2024-12-31 20:54:56 · 1609 阅读 · 0 评论
分享