小莎士比亚-CSDN博客

原创【视觉大模型基础】ViT模型的简单pytorch实现——经验分享与半求助帖子

摘要：本文分享了基于Transformer模型的医学影像诊断研究经验，使用MedTrinity数据集（Hugging Face上的parquet格式数据）进行多模态处理。作者通过Python加载parquet文件，构建包含图像和文本的数据集，并利用Word2Vec模型生成词向量。数据处理流程包括特殊标记(SOS/EOS/PAD)处理、最长文本长度计算和文本向量编码。文章重点记录了数据预处理和模型训练准备阶段的技术细节，同时提到在笔记本RTX4060上运行的可行性挑战。

2025-06-06 20:17:47 311

原创 CUDA C++实现卷积及池化推理

2.MSB372：这个其实是指你的vs版本的问题，你只需要找到错误的源文件host_config.h里面把版本修改成对应的即可（需要管理员权限才行）。具体参考这个网页的建议https://liujiahua.com/blog/2024/05/29/cpp-CudaErrorC1189/这个错误无需担心，不会影响你的运行，你只需关注其它错误即可（如果有的话）。最近在学习CUDA C++编程，尝试自己构建实现一个CUDA版的卷积神经网络。3.还有一种可能是你的文件路径出现中文了，环境、文件等尽量不要出现中文。

2025-03-16 16:09:49 691

原创【pytorch】大模型多轮问答推理

模型输入输出是英文，如果需要转换成中文，可以在里面嵌入中英文转换模型。模型：Bio_medical_llama_3_2_1B_CoT。根据我个人测试来看，英文转中文效果不太行。一、大模型多轮问答推理。

2025-03-08 20:48:32 320

原创【Pytorch微调本地大模型】使用DPO算法微调本地大模型

1.Hugging face上下载模型时一定要注意是否是微调版本，有的微调版本的模型只会给你微调模型的参数，即LoRA。利用本地数据集train-00000-of-00001.parquet和test-00000-of-00001.parquet来微调Deepseek-R1-Distill-Qwen-1.5B大模型,数据集是Math-Step-DPO-10K，微调策略：DPO算法。2.DPO中仍然需要LoRA，不然就是用DPO全训练整个模型了，不是“微调”了。即在工程实践中可以用LoRA来指代大模型。

2025-02-26 12:33:15 1060