自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(十三)

数据是在第一试卷网上爬取的试卷,根据试卷来估计题目难度,然后构建question.json,我爬取了初二,初三的试卷。

2024-06-24 12:32:36 203

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(十四)

【代码】教育领域“知之”大模型--山东大学软件学院2024年项目实训。

2024-06-24 12:22:07 155

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(十二)

【代码】教育领域“知之”大模型--山东大学软件学院2024年项目实训(十二)

2024-06-23 19:54:51 76

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(十一)

【代码】教育领域“知之”大模型--山东大学软件学院2024年项目实训(十一)

2024-06-23 13:01:26 114

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(九)

如果使用模型默认的输出方式是直接等回答全部完成才会输出,这样会大大增加等待时间,在swift中有设置流输出的方式。

2024-06-22 13:37:56 150

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(八)

【代码】教育领域“知之”大模型--山东大学软件学院2024年项目实训(八)

2024-06-21 17:40:08 129

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(十)

【代码】教育领域“知之”大模型--山东大学软件学院2024年项目实训(十)

2024-06-21 17:24:55 64

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(七)

为了更好的微调模型,我阅读了几篇关于优化大模型性能的文章,这里总结在博客里。

2024-05-30 19:43:14 535

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(六)

在上一篇文章中,我在魔搭社区中进行了参数的微调,如果需要将微调参数加载到本地。需要注意在完成swift微调之后,如果想将微调模型参数本地化,需要将文件中小文件一个一个下载,因为魔搭不支持文件夹的下载。本次我进行微调的大模型是 deepseek-math-7b-instruct,在本地需要下载swift(只需要下载LLM版就行)如果有GPU较好,可以更改device_map;如果没有也可以使用CPU。

2024-05-30 19:31:10 212

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(四)

本次博客将更新如何使用swift进行模型的微调。在开始之前可以学习LLM的微调文档。为了更了解swift的结构,我们可以访问github上swift来查看其支持的模型与数据集。

2024-05-30 16:16:35 132

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(五)

与BERT类似,在输入文本中选择15%的字符,并且所选的字符是(1)80%的概率被屏蔽字符[ M A S K 2 ] [MASK2][MASK2]替换,或(2)10%的概率被随机字符替换,或者( 3)10%的概率保持不变。当MLM是唯一的预训练目标时,可按照Rothe et al. (2019) 的方法对下游任务进行微调,即Transformer解码器会与编码器共享所有参数。在RTD任务中,输入文本的某个token被特殊标记符号[MASK]所替换,模型的目标是判断该Token在预训练中是否被替换。

2024-05-30 15:37:27 201

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(三)

这里需要注意的是,最好是从modelscope中下载该模型,不要从transforms中下载,因为需要访问github。当然下载的过程中会经常提示你需要安装库,按照要求下载即可,下载完成之后,因为我电脑的GPU显存不足以支持模型的运行,所以我换成了CPU,但这样代价是明显的,推理速度较慢。为了满足离线使用大模型,我决定尝试将大模型本地化,这里我尝试的是通义千问,可以根据模型文件来估计一下文件的大小,我选择的是较小的模型。

2024-05-30 00:23:28 162

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(二)

点击上方的模型库,可以进行模型的选择,我首先选择的是Meta-Llama-3-8B-Instruct进行尝试,我们根据模型介绍,可以首先在Notebook中快速尝试。在魔搭社区中我们可以找到很多模型库以及数据集,同时魔搭社区会提供一定时长的GPU资源让我可以进行大模型的微调,所以,可以在魔搭社区中先进行一些尝试。首先需要根据模型需要的库进行下载,然后根据模型介绍的内容进行代码的测试,我们可以看到会调用之后模型成功回答。首先,我们进入注册好账号,进入魔搭社区的界面。

2024-05-29 23:58:26 345

原创 教育领域“知之”大模型--山东大学软件学院2024年项目实训(一)

假设已经为语言模型提供了一个自然语言指令和/或几个任务演 示,它可以通过完成输入文本的单词序列的方式来为测试实例生成预期的输出,而无需额外的训练或梯度更新。工具操作:从本质上讲,LLM 是基于海量纯文本语料 库进行文本生成训练的,因此在那些不适合以文本形式表达的任务上表现不佳(例如数字计算),)网络(而不是 学习固定的词表示)来捕捉上下文感知的词表示,然后根据 特定的下游任务微调biLSTM 网络。由于巨大的模型规模,成功训练一种能力强的 LLM 是非常具有挑战性的。LLM 在未见 任务上的泛化能力。

2024-04-16 21:04:11 292

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除