自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 BERT、GPT、T5模型简介

帖子作为datawhale组队学习记录,参考资料BERT、GPT、T5这三个模型是在transformer提出之后三个非常经典的模型,其中bert采用transformer的编码器结构、gpt采用的是transformer的解码器结构、T5采用的完全是transformer编码器-解码器结构。个人理解:基于编码器的模型相对而言对输入的理解更好,基于解码器的模型相对而言对于文本生成更有优势。

2026-01-17 20:40:22 646

原创 attention与transformer

本篇文章作为学习记录,学习的是这个教程,根据个人理解和教程内容写下的学习记录。本人才疏学浅,帖子中可能忽悠错误内容恳请大家批评指正。帖子中使用的“矩阵”这个词不准确,一般二维叫矩阵,三维及三维以上称作tensor。

2026-01-13 23:10:45 632

原创 本地部署模型显存估算(一)

最近在尝试本地部署模型,在部署模型前需要准确估计模型占用的显存,才能根据硬件设备选择合适的模型。目前尝试的是稠密模型,看了网上的很多帖子,感觉说的乱七八糟的。在这里总结一下运算方法,并以qwen2-72b模型(dense模型)作为示例。注意是稠密模型!!!

2026-01-06 21:18:49 479

原创 第二章 RAG构建概述

RAG是什么?RAG是一种解决大模型知识局限的方法技术,由于大模型的训练机制,在训练完成之后知识仅仅局限于训练过程中的知识,对于未知问题,模型会一本正经的胡说八道,由此诞生了RAG。RAG说到底就是(Retrieval-Augmented Generation)检索-增强-生成,本质上可以理解为一个数据库,将检索到的内容提供给大模型,大模型从而做出有理有据的回复。其实,构建一个RAG非常简单,利用市面上现有的大模型(豆包、kimi等),输入“请帮我生成一个RAG项目”的提示词就可以快速构建一个demo。

2025-12-21 13:06:44 923

原创 Git操作基础流程

首先,Git是什么?Git是当前最主流、最强大的分布式版本控制系统。但是提到Git,大佬不愿意讲因为觉得太简单,菜鸡头真疼整不明白真难受。这里把个人的理解和操作步骤放出来供小白参考。

2025-12-18 22:12:05 830

原创 第一章 模型应用开发概述

大模型发展与应用概述:文章系统梳理了语言模型的演进历程,从统计语言模型发展到当前的大语言模型(LLM)。重点介绍了大模型构建的三个关键阶段:预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)。分析了开源与闭源大模型的商业策略差异,并探讨了大模型时代的应用开发范式,包括Prompt工程、知识库(RAG)技术和前后端开发实践。文章还提供了模型微调、数据标注等实用工具推荐,为开发者提供了全面的技术参考。

2025-12-16 22:32:17 924

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除