- 博客(6)
- 收藏
- 关注
原创 【视觉大模型基础】ViT模型的简单pytorch实现——经验分享与半求助帖子
摘要:本文分享了基于Transformer模型的医学影像诊断研究经验,使用MedTrinity数据集(Hugging Face上的parquet格式数据)进行多模态处理。作者通过Python加载parquet文件,构建包含图像和文本的数据集,并利用Word2Vec模型生成词向量。数据处理流程包括特殊标记(SOS/EOS/PAD)处理、最长文本长度计算和文本向量编码。文章重点记录了数据预处理和模型训练准备阶段的技术细节,同时提到在笔记本RTX4060上运行的可行性挑战。
2025-06-06 20:17:47
311
原创 CUDA C++实现卷积及池化推理
2.MSB372:这个其实是指你的vs版本的问题,你只需要找到错误的源文件host_config.h里面把版本修改成对应的即可(需要管理员权限才行)。具体参考这个网页的建议https://liujiahua.com/blog/2024/05/29/cpp-CudaErrorC1189/这个错误无需担心,不会影响你的运行,你只需关注其它错误即可(如果有的话)。最近在学习CUDA C++编程,尝试自己构建实现一个CUDA版的卷积神经网络。3.还有一种可能是你的文件路径出现中文了,环境、文件等尽量不要出现中文。
2025-03-16 16:09:49
691
原创 【pytorch】大模型多轮问答推理
模型输入输出是英文,如果需要转换成中文,可以在里面嵌入中英文转换模型。模型:Bio_medical_llama_3_2_1B_CoT。根据我个人测试来看,英文转中文效果不太行。一、大模型多轮问答推理。
2025-03-08 20:48:32
320
原创 【Pytorch微调本地大模型】使用DPO算法微调本地大模型
1.Hugging face上下载模型时一定要注意是否是微调版本,有的微调版本的模型只会给你微调模型的参数,即LoRA。利用本地数据集train-00000-of-00001.parquet和test-00000-of-00001.parquet来微调Deepseek-R1-Distill-Qwen-1.5B大模型,数据集是Math-Step-DPO-10K,微调策略:DPO算法。2.DPO中仍然需要LoRA,不然就是用DPO全训练整个模型了,不是“微调”了。即在工程实践中可以用LoRA来指代大模型。
2025-02-26 12:33:15
1060
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人