- 博客(163)
- 资源 (6)
- 收藏
- 关注

原创 CJK备注
pip 清华镜像库 :-i https://pypi.tuna.tsinghua.edu.cn/simple更新pip:python -m pip install --upgrade pippython第三方包(.whl)仓库:https://www.lfd.uci.edu/~gohlke/pythonlibspython官方包仓库:https://pypi.org/国内开源镜.....................
2021-01-09 18:35:27
419
原创 llamafactory的包安装
我安装vllm是使用了下面两种方式,第二种是我已知对应版本能够匹配上,如果不确定能否匹配上则应使用第一种。安装好torch后就是安装其他包了,由于安装其他包时可能会重新安装torch,而用。,会装成cpu版本的(经典错误了属于是),有几种安装方法,除了官方推荐的。命令又可能导致版本不匹配,所以我一般都会同步安装各个包,例如。找到对应的cuda版本的安装命令,我的是。安装torch2.4.0,注意不要直接。,它就不会覆盖安装新的torch了。由于与主线无关,此处不多赘述。,由于命令中指定安装已有的。
2025-04-20 14:23:38
509
原创 ModuleNotFoundError: No module named ‘vllm.lora.peft_helper‘原因和解决方式
再运行就可使用了,在我的运行场景中是不会报错的,不知道其它场景是否可以这么操作(我只用了普通有监督Lora微调、flash-attn和unsloth加速、Qlora微调、RLHF,以及导出)的原因顾名思义是unsloth_zoo引用的vllm不存在相关模块,这一般都是因为版本不匹配,在。看到llamafactory作者给出的解决方案也是升级vllm版本。,却没有匹配的vllm版本,
2025-04-20 13:54:16
264
原创 (自用)毕业论文格式
标题“摘 要”:黑体,居中;字号为小三;1.5倍行距;段前为0行,段后1行。摘要的正文部分,每段落首行缩进2个字符;字体为宋体,字号为小四,行距为1.25倍行距,间距:前段、后段均为0行,取消网格对齐选项。摘要篇幅以两页为限,摘要正文后列出3~5个关键词,关键词与摘要之间空一行。“关键词”:黑体,小四,加粗。各个关键词的字体为宋体,字号为小四,关键词之间用分号间隔,末尾不加标点(例如“关键词:张三;李四;王五”)。标题“Abstract”:黑体,居中;字号为小三;1.5倍行距;
2025-04-13 17:38:12
688
原创 安装unsloth
我在llamafactory微调LLM,简单测了一些(很不精准),加速方法中unsloth比flash_attention速度快了40%,显存占用减少15%;
2025-03-23 10:12:03
409
原创 大模型推理时动态量化成4bit
不需要保存模型文件,只在推理时动态量化成4bit(只占用4bit的显存),但动态量化与根据校准数据集进行后训练量化相比,精度差了非常多。
2025-03-22 12:32:32
247
原创 大模型笔记(自用)
微调技术总览全量微调(Full Fine Tuning, FFT):涉及调整预训练模型的所有参数以适应特定任务,通常需要大量计算资源和数据。参数高效微调(Parameter-Efficient Fine Tuning, PEFT):仅调整模型中的一小部分参数,以减少计算负担和资源消耗,同时保持模型性能。微调方法分类有监督微调(Supervised Fine Tuning, SFT):使用标注数据直接训练模型,通过最小化预测误差来优化模型参数。
2025-03-21 10:14:18
334
原创 llama-factory笔记
RoPE 插值方法能提升长文本效果,如果没有特殊需求可以不使用(yarn最好,dynamic能动态变化,linear适合所有文本长度相近的情况且耗时最短)加速方法:内置了flash_attention,auto即为flash_attention,unsloth更适合显存低的情况;flash_attention和unsloth主要用在训练过程中,vllm主要用在推理过程中Qlora框架下的具体量化方法:bitsandbytes直接内置比较方便,hqq在显存极低情况下更好用(显存占用下降更多),但需要安装。
2025-03-16 12:22:55
1003
原创 大模型微调中显存占用和训练时间的影响因素
激活值是指模型在正向传播过程中每一层计算出的中间结果,通常存储在显存中,以便反向传播时计算梯度。对于 Transformer 模型,激活值主要与注意力机制(Self-Attention)和前馈网络(Feed-Forward Network, FFN)的计算相关。
2025-03-15 18:59:58
1094
原创 RuntimeError: CUDA error: device-side assert triggered
pytorch报错:ValueError: num_samples should be a positive integer value, but got num_samples=0。可能是因为用的数据集是已经划分好的,所以不需要再shuffle。torch.utils.data.DataLoader加载数据时将shuffle = False,错误即可消除。标签越界,类别不对应。
2025-03-13 17:40:14
152
原创 python实现实时字幕与翻译
项目地址:https://github.com/Cheng0829/Real-Time-Subtitles-Translation这是我做的一个根据系统声音实时显示英文字幕与中文翻译的软件,功能如下:对于BBC发布在Youtube的纪录片:How China is taking the lead in tech进行识别:record_fulltext_20250221_110432.txtrecord_sentence_20250221_110432.txt
2025-02-22 14:25:33
917
原创 (BIBM-2024) 用于药物相互作用预测的可解释多视图注意网络
药物间相互作用(DDI)在药物发现中发挥着越来越重要的作用。预测潜在的 DDI 对于临床研究也至关重要。考虑到湿实验室实验的高成本和风险,计算机 DDI 预测是一种替代选择。最近,深度学习方法已被开发用于 DDI 预测。然而,大多数现有方法侧重于从分子 SMILES 序列或药物交互网络中提取特征,忽略了可以从这两种视图中得出的有价值的补充信息。在本文中,我们提出了一种用于 DDI 预测的新型可解释多视图注意力网络(MVA-DDI)。MVA-DDI可以有效地从不同角度提取药物表征,以改进DDI预测。
2024-12-16 16:42:32
1070
原创 钢铁雄心4的存档修改、控制台指令
autonomy_state:autonomy_puppet(自治领), autonomy_integrated_puppet(半吞并傀儡国), autonomy_reichsprotectorate(傀儡国).,然后退出游戏重新存档,即可在文本编辑器以UTF-8编码打开,否则乱码。或删除major项将主要国家设置为不主要,或通过设置。D10主动进攻ENG, 删除此项则为和平。,非主要国家没有此项,可设置。把不主要国家设置为主要。second: 殖民地。first: 宗主国。,若已是主要国家则有。
2024-11-06 18:16:36
2391
原创 根文件夹下文件重复检测
功能介绍:在传入Windows路径后(例如“D:\小米云服务下载”),遍历文件夹下所视频有文件(包括子文件夹下的视频文件,其他类型不做判断),判断视频文件是否重复(由于视频文件很大,无法计算整个文件的哈希值,所以对文件大于5MB的文件,仅判断前5MB的哈希值),如果重复则列出所有重复文件的文件大小(以MB为单位,并保留两位小数)和绝对路径。使用了MD5算法,虽然通常情况下足够用于检测文件重复,但在某些场景下MD5可能不是最安全的选择。
2024-09-17 17:55:03
423
原创 生物医学顶刊论文(JBHI-2024):TransFOL:药物相互作用中复杂关系推理的逻辑查询模型
本研究将DDI视为知识图谱上的链接预测问题,并提出了一个基于Cross-Transformer和图卷积网络(GCN)的一阶逻辑查询形式的DDI预测模型,TransFOL。在模型中,首先构建生物医学查询图以学习嵌入表示。随后,设计了一个增强模块来聚合实体和关系的含义。交叉变换器用于编码以获取节点之间的语义信息,图卷积网络用于进一步收集邻居信息并预测推理结果。为了评估TransFOL在常见DDI任务上的性能,我们在两个基准数据集上进行了实验。实验结果表明,我们的模型在传统DDI任务上的性能超过了最先进的方法。
2024-05-18 20:52:43
1353
原创 阿里通义千问Qwen1.5使用教程
下载各个版本LLM的文件,然后存入qwen文件夹,每个文件夹下各子文件夹即代表各个版本的llm,模型文件等存储在对应版本的子文件夹下。XXX-GPTQ-Int4的意思是对模型进行了精度为Int4的量化,虽然实测降低了一点速度但是显著降低了占用的显存。python版本为3.8,cuda(cudatoolkit)版本为11.8(版本太低运行时会报错)web网页端我使用了比较热门的。
2024-03-05 16:29:53
3603
原创 CSDN的默认markdown教程
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:Ctrl/Command + B斜体:Ctrl/Command + I标题:Ctrl/Command + S
2024-03-05 15:17:32
903
原创 LeetCode笔记
给定一个整数数组nums和一个整数目标值target,请你在该数组中找出 和为目标值target的那两个整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。
2023-08-26 09:46:17
243
原创 latex报错:Sorry, but “MiKTeX Compiler Driver“ did not succeed.
有可能是bib文件里参考文献重复,也可能是引用的时候大小写不分。
2023-06-29 17:46:42
686
原创 16.(2022.6.8)FuzzyQE:知识图上基于模糊逻辑的逻辑查询回答
在大规模不完整知识图(KG)上回答复杂的一阶逻辑(FOL)查询是一项重要但具有挑战性的任务。最近的进展是在同一个空间中嵌入逻辑查询和KG实体,并通过密集相似性搜索进行查询回答。然而,以往研究中设计的大多数逻辑算子都不满足经典逻辑的公理体系,限制了它们的性能。此外,这些逻辑运算符是参数化的,因此需要许多复杂的FOL查询作为训练数据,而在大多数现实世界的知识图谱中,这些数据通常很难收集甚至无法访问。因此,我们提出了FuzzyQE,这是一种基于模糊逻辑的逻辑查询嵌入框架,用于回答KG上的FOL查询。
2023-04-24 21:40:44
1055
原创 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2022):基于异构图GCN和GAT的DTI预测
目录药物-靶点相互作用(DTI)预测在药物重新定位、药物发现和药物设计中具有重要作用。然而,由于化学和基因组空间大,药物和靶点之间的相互作用复杂,DTI的实验鉴定是昂贵和耗时的。近年来,新兴的图神经网络(GNN)被应用于DTI的预测,因为DTI可以有效地用图表示。然而,其中一些方法仅基于同构图,还有一些方法由两个解耦步骤组成,无法联合训练。为了进一步探索融合异构图信息的基于GNN的DTI预测,本研究将DTI预测视为一个链路预测问题,提出了一种基于注意力机制异构图的端到端模型(DTI-HETA)。该模型首先基
2022-12-07 09:46:25
3449
1
原创 RuntimeError: PytorchStreamReader failed reading zip archive: failed finding central directory
原因是模型文件损坏,可能是你在模型写入的时候强行停止程序运行. 需要重新训练。
2022-11-17 08:58:56
8420
4
原创 pytorch RuntimeError: No such operator torchvision::XXX问题解决
安装torch_scatter/torch_sparse的高版本。
2022-11-13 17:39:28
900
原创 win10 torch self._handle = _dlopen(self._name, mode) OSError: [WinError 126] 找不到指定的模块
不要在cmd powershell等交互端口输入命令运行, 直接在IDE中运行。
2022-11-13 17:34:22
406
原创 win10 torch.multiprocess多线程报错 EOFError: Ran out of input 或 No rendezous handler for env://
在IDE中直接运行,不要用powershell和cmd等交互窗口。把所有的num_workers设为0。
2022-11-13 17:30:27
786
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人