自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 实战:从零开始构建BERT,解决IMDb数据集,包含预训练和微调两部分

使用时记得切换路径,本模型构建比较简单,使用现有参数准确率大概只有0.8左右,还有很多可以优化的空间,本文只是引路,仅供参考。用无标签的数据进行预训练。微调并在测试集上使用。

2025-10-17 19:27:58 519 1

原创 【自然语言处理】基于Transformer的LLM演化与应用,以及注意力机制优化等

技术演进分为三个阶段:效率优化阶段(如多查询注意力、FlashAttention)、性能平衡阶段(如分组查询注意力GQA、多头潜在注意力MLA)和多模态扩展阶段(以多Token注意力MTA为代表)。文章还探讨了Transformer在文本生成、智能客服等场景的应用成效,揭示了学术诚信、数据偏见和模型安全性等伦理问题,并从数据治理和注意力机制优化两个维度提出了改进建议。②掌握其在实际业务中的应用方式与潜在风险;③为设计高效、安全、公平的大语言模型提供技术参考与改进思路;

2025-10-12 20:43:58 264

【自然语言处理】基于Transformer的LLM演化与应用,以及注意力机制优化等

内容概要:本文系统梳理了Transformer模块自《Attention is All You Need》提出以来在大语言模型(LLM)领域的发展脉络,重点分析其技术演化路径、典型应用场景、伦理风险及未来改进方向。技术演进分为三个阶段:效率优化阶段(如多查询注意力、FlashAttention)、性能平衡阶段(如分组查询注意力GQA、多头潜在注意力MLA)和多模态扩展阶段(以多Token注意力MTA为代表)。文章还探讨了Transformer在文本生成、智能客服等场景的应用成效,揭示了学术诚信、数据偏见和模型安全性等伦理问题,并从数据治理和注意力机制优化两个维度提出了改进建议。; 适合人群:具备一定机器学习和自然语言处理基础,从事AI研发或研究工作的技术人员、研究生及算法工程师,尤其适合关注大模型架构演进与应用落地的专业人士。; 使用场景及目标:①深入理解Transformer在LLM中的技术演变逻辑与核心优化手段;②掌握其在实际业务中的应用方式与潜在风险;③为设计高效、安全、公平的大语言模型提供技术参考与改进思路; 阅读建议:建议结合原始论文和相关代码实现进行延伸学习,重点关注注意力机制的数学表达与工程优化细节,同时重视文中提到的伦理问题,在实践中兼顾模型性能与社会责任。

2025-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除