算法——大模型相关
文章平均质量分 88
大模型相关知识,包括bert, transformer等
bulingg
打怪升级的散养研究生一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
常用激活函数(深度学习、大模型)
LLM、ML、DL常用激活函数原创 2026-05-25 10:07:56 · 377 阅读 · 0 评论 -
大模型——LLAMA框架介绍(含手撕)
本文介绍了LLAMA模型在Transformer架构上的两个关键改进:1) 使用Pre-RMSNorm替代Post-LayerNorm,通过仅对输入向量的均方根进行归一化,提高了计算效率和训练稳定性;2) 采用分组查询注意力(GQA)机制替代多头注意力(MHA),通过将查询分组并与共享的键值对交互,显著减少了KV缓存的内存占用。文章详细阐述了两种技术的数学原理、实现细节和性能优势,并提供了PyTorch实现代码,展示了LLAMA如何通过架构优化提升大模型训练的效率和稳定性。原创 2026-03-28 22:46:50 · 429 阅读 · 0 评论 -
大模型位置编码:绝对位置编码(sin/cos)与旋转位置编码(Rope)的区别
Llama采用的旋转位置编码(RoPE)相比传统sin/cos编码具有显著优势。RoPE通过旋转矩阵将位置信息融入词向量,保持模长不变仅改变方向,而sin/cos编码是简单叠加。关键区别在于:RoPE能显式建模相对位置关系(通过矩阵差),而sin/cos需隐式学习。RoPE优势包括:更好的长序列外推能力(利用旋转矩阵线性性质)、显式相对位置建模、保持向量空间稳定性以及更高计算效率。这种"相对位置融合"方式代表了位置编码技术的重要进步,特别适合处理长序列和复杂任务。原创 2026-03-01 22:14:37 · 642 阅读 · 0 评论 -
知识蒸馏的基础概念
软标签(Soft Targets)教师模型在对输入 (x) 进行前向传播后,会得到一组logits(未归一化的得分)。通过在softmax前加入温度系数 (T>1) 进行温度软化piTexpziT∑jexpzjTpiT∑jexpzjTexpziT当 (T) 较大时,概率分布会变得更平滑,保留了类别之间的相对相似度信息(即“暗知识”),这比硬标签(one‑hot)提供了更丰富的学习信号。原创 2025-12-06 21:10:57 · 944 阅读 · 0 评论 -
bert常见的变体
BERT变体模型通过不同优化策略提升性能:ALBERT采用参数共享和嵌入分解降低参数量,适合轻量级场景;RoBERTa通过动态掩码和大批量训练增强泛化能力;ELECTRA引入生成器-判别器架构实现全token训练,提升效率;SpanBERT专为跨度任务设计,优化跨度掩码和边界目标。这些改进使BERT在效率、性能和任务适配性上得到全面提升。原创 2025-12-06 21:04:42 · 766 阅读 · 0 评论 -
长尾问题定义及如何解决长尾分布问题
长尾问题(Long Tail Problem)是指在某些数据分布中,少数类别(或事件)出现的频率非常高,而多数类别(或事件)出现的频率非常低。这个现象在很多实际应用中都存在,比如电子商务中的商品销售、自然语言处理中的词频分布、推荐系统中的用户行为等。在长尾分布中,头部(高频部分)占据了大部分的关注和资源,而尾部(低频部分)包含了大量的类别,这些类别虽然单独出现的频率低,但总量却非常大。解决长尾问题的关键在于如何有效地处理这些低频类别,以充分利用长尾部分的数据价值。原创 2024-06-24 11:57:56 · 10692 阅读 · 0 评论 -
NLP中常见的tokenize方式及token类型
不同的任务和应用可能需要不同类型的tokens。例如,在机器翻译中可能会使用子词tokens来处理未知词汇,而在文本分类任务中,则可能更倾向于使用单词tokens。在选择tokenizer时,需要考虑文本的特点、处理任务的需求以及计算资源。通常,基于机器学习的tokenizer虽然性能较好,但计算成本也更高,而简单的基于规则的tokenizer则适用于快速处理或资源有限的场景。Tokenizer是一种工具,用于将文本分割成更小的单元,通常是单词、短语或其他有意义的符号,这些单元称为tokens。原创 2024-04-30 10:06:23 · 2380 阅读 · 0 评论 -
深度学习中的归一化:BN,LN,IN,GN的优缺点
归一化在深度学习中的应用包括批量归一化(Batch Normalization)、层归一化(Layer Normalization)、组归一化(Group Normalization)和实例归一化(Instance Normalization)等。这些技术在不同的网络结构和任务中有着广泛的应用,是现代深度学习架构中不可或缺的一部分。Batch Norm:把每个Batch中,每句话的相同位置的字向量看成一组做归一化。Layer Norm:在每一个句子中进行归一化。Instance Norm:每一个字的字向量的原创 2024-04-29 19:58:08 · 1781 阅读 · 0 评论 -
NLP任务中常用的损失函数
问答系统(生成式问答),生成式任务(如文本生成)等对应的损失函数形式及文本相似度的评价指标原创 2024-01-17 18:15:10 · 2098 阅读 · 0 评论 -
transformer详解
介绍transformer中各个组件的原理,包括attention,resnet,layer normalization,position encoding等原创 2024-01-16 18:19:41 · 1442 阅读 · 0 评论 -
LLM——检索增强生成RAG
RAG 是一种结合了检索(Retrieval)和生成(Generation)的自然语言处理技术。它旨在通过先从一个大型的文档数据库中检索相关信息,然后基于检索到的信息生成回答或内容,从而增强语言模型的能力。原创 2023-12-28 19:33:42 · 1104 阅读 · 0 评论 -
批量归一化和层归一化
为什么需要进行归一化?如果将输入序列的每一维数值进行归一化,使其在一定范围之内,比如0和1之间,可以加快基于梯度下降的学习的收敛速度原因:梯度下降以相同的学习率对每一维进行最小化,如果取值范围差异很大,学习就很难在各个维度上同时收敛;如果将学习率取得很小,可以避免这个问题,但是学习效率会降低。原创 2023-08-21 21:36:03 · 457 阅读 · 0 评论 -
字节算法岗面经1
bi-LSTM,随机森林,降维等算法岗面经原创 2023-08-13 09:38:08 · 317 阅读 · 1 评论
分享