- 博客(6)
- 收藏
- 关注
原创 BERT、GPT、T5模型简介
帖子作为datawhale组队学习记录,参考资料BERT、GPT、T5这三个模型是在transformer提出之后三个非常经典的模型,其中bert采用transformer的编码器结构、gpt采用的是transformer的解码器结构、T5采用的完全是transformer编码器-解码器结构。个人理解:基于编码器的模型相对而言对输入的理解更好,基于解码器的模型相对而言对于文本生成更有优势。
2026-01-17 20:40:22
646
原创 attention与transformer
本篇文章作为学习记录,学习的是这个教程,根据个人理解和教程内容写下的学习记录。本人才疏学浅,帖子中可能忽悠错误内容恳请大家批评指正。帖子中使用的“矩阵”这个词不准确,一般二维叫矩阵,三维及三维以上称作tensor。
2026-01-13 23:10:45
632
原创 本地部署模型显存估算(一)
最近在尝试本地部署模型,在部署模型前需要准确估计模型占用的显存,才能根据硬件设备选择合适的模型。目前尝试的是稠密模型,看了网上的很多帖子,感觉说的乱七八糟的。在这里总结一下运算方法,并以qwen2-72b模型(dense模型)作为示例。注意是稠密模型!!!
2026-01-06 21:18:49
479
原创 第二章 RAG构建概述
RAG是什么?RAG是一种解决大模型知识局限的方法技术,由于大模型的训练机制,在训练完成之后知识仅仅局限于训练过程中的知识,对于未知问题,模型会一本正经的胡说八道,由此诞生了RAG。RAG说到底就是(Retrieval-Augmented Generation)检索-增强-生成,本质上可以理解为一个数据库,将检索到的内容提供给大模型,大模型从而做出有理有据的回复。其实,构建一个RAG非常简单,利用市面上现有的大模型(豆包、kimi等),输入“请帮我生成一个RAG项目”的提示词就可以快速构建一个demo。
2025-12-21 13:06:44
923
原创 Git操作基础流程
首先,Git是什么?Git是当前最主流、最强大的分布式版本控制系统。但是提到Git,大佬不愿意讲因为觉得太简单,菜鸡头真疼整不明白真难受。这里把个人的理解和操作步骤放出来供小白参考。
2025-12-18 22:12:05
830
原创 第一章 模型应用开发概述
大模型发展与应用概述:文章系统梳理了语言模型的演进历程,从统计语言模型发展到当前的大语言模型(LLM)。重点介绍了大模型构建的三个关键阶段:预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)。分析了开源与闭源大模型的商业策略差异,并探讨了大模型时代的应用开发范式,包括Prompt工程、知识库(RAG)技术和前后端开发实践。文章还提供了模型微调、数据标注等实用工具推荐,为开发者提供了全面的技术参考。
2025-12-16 22:32:17
924
空空如也
python生成节点导纳矩阵tiny_1 tiny_2优化
2024-11-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅