AI时代
文章平均质量分 85
喝不完一杯咖啡
学而不思则罔,思而不学则殆
展开
-
【个人成长】记录一次PR提交,顺便介绍一下向开源社区提交PR的流程
最近在使用ColossalAI项目,目前提交了两次PR,已合并到官方main分支,简单说明一下提交PR流程原创 2024-08-05 15:53:19 · 231 阅读 · 0 评论 -
【LLM】使用ColossalAI-0.4.0对llama3-8B-Instruct进行全参数微调
目的:掌握训练手段,使用2000+QA数据集,对llama3-8B做SFT,使模型能完全按数据集中的问题进行回答,保证准确性。本文记录了全部过程和训练过程中遇到的所有问题。原创 2024-07-25 17:45:18 · 1246 阅读 · 0 评论 -
【LLM】基于ColossalAI-0.3.6对llama2-7B-Chat做全参数微调
本文介绍了使用ColossalAI对Llama2-7B-Chat做SFT的全部过程,包括原始数据集的格式、数据集预处理、训练等等。原创 2024-07-18 18:37:28 · 857 阅读 · 0 评论 -
【AIGC】如何在使用stable-diffusion-webui生成图片时看到完整请求参数
通过代码调用Stable Diffusion的txt2img、img2img接口时,很多时候都不知道应该怎么传参,比如如何指定模型、如何开启并使用Controlnet、如何开启面部修复等等,在sd-webui上F12看到的请求也不是正式调用SD的请求,所以当引入新插件或需要使用新功能时,怎么传参成了一个大问题,网上关于接口传参的资料也很少,接下来就介绍一下,如何在每次通过sd-webui点击生成图片时,获取到完整的请求参数。原创 2023-10-09 15:20:27 · 1895 阅读 · 0 评论 -
【ChatGLM】使用ChatGLM-6B-INT4模型进行P-Tunning训练记录及参数讲解
pre_seq_len的取值范围一般是1到512,它表示自然语言指令的长度,即输入序列中的前pre_seq_len个token,具体的值需要根据自然语言指令的长度和复杂度来确定。一种可能的方法是,根据不同的指令类型设置不同的pre_seq_len值,例如,对于简单的指令,如“生成一个笑话”,可以设置pre_seq_len为4;不完全是的,pre_seq_len和max_source_length的含义是不同的,但是它们之间有一定的关系。因此,需要根据具体的任务和数据集来调整这个参数,以达到最佳的效果。原创 2023-06-09 11:52:09 · 8143 阅读 · 17 评论 -
【ChatGLM】记录一次Windows部署ChatGLM-6B流程及遇到的问题
系统版本:Windows 10 企业版版本号:20H2系统类型:64 位操作系统, 基于 x64 的处理器处理器:Intel(R) Core(TM) i7-8700 CPU @ 3.20GHz 3.19 GHz机带 RAM:16.0 GB显卡:NVIDIA RTX 2070(8G)Python版本:3.10.11原创 2023-06-09 11:43:09 · 4755 阅读 · 0 评论