自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 2024软件学院创新项目实训(6)

要实现对大模型进行自动化的测试,就需要自行写一个可以进行自动化测试的文件,我使用的是python来实现自动化的测试,其功能为自动读取包含测试数据的json文件,然后将其作为问题输入给大模型,再将大模型返回的答案、问题和正确答案一并导出到txt文本文件当中,最后再算其正确率。Response后面的内容为模型输出的答案,Correct Answer为问题的正确答案,通过这种方式,就可以快速的比对模型的输出是否正确,十分方便。这个整合后的对话提示将会作为生成模型的输入,帮助模型更好地理解上下文并生成相关的响应。

2024-06-23 16:19:14 1562

原创 2024软件学院创新项目实训(5)

本篇讲一下如何几种不同的使用恒源云和LMDeploy对大模型进行部署的方法。

2024-06-18 21:05:18 660

原创 2024软件学院创新项目实训(4)

在遍历过程中,程序会根据特定的规则判断题目和答案的位置,提取题目内容和答案内容,并将其组织为一个特定的数据结构。但是存在一个问题,网上寻找的肖四肖八预测题大多都是扫描版的pdf文档,并非word文档,因此想要获得到word文档,还需要进行人工处理,将pdf转化为word文档,虽然wps有自带的pdf转文档功能,但是其转化后的结果并不规整,因此还需要进行人工的处理。上一篇中,我们讨论了数据应该是怎么样的格式,以及数据的获取步骤,这一篇集中讨论一下针对于这个项目而言具体的代码实现。

2024-06-17 19:31:51 663

原创 2024软件学院创新项目实训(3)

其中,`tid`为全局题号,`type`为题目类型(0为选择题),`subject_id`为该题目所属专题的编号,`topic_id`为改题目所属考点的编号,`origin`为题目来源,`content`为题干,`choices`列表为四个选项,`ans`为正确答案的索引,`analysis`为题目解析。我们首先搜集的数据是近五年的肖四肖八预测题, 因为肖四肖八的题目质量高,解析全,代表着训练集的质量高,可以让模型训练更加精准。本步骤由人工进行,将含有图、表的题目剔除,以及拆分不正确的题目剔除。

2024-05-29 21:13:28 1500

原创 2024软件学院创新项目实训(2)

在上一篇中,我详细描述了创新实训项目——基于InternLM的考研政治题库系统中所需要用的大模型,微调工具,部署工具等,对项目整体做了一个全面的总览,而这一篇文章我主要讨论一下数据集对大模型性能的影响。

2024-05-29 20:24:18 1626

原创 2024软件学院创新项目实训(1)

项目灵感来源于我们组内成员都有考研需求,我们希望在面对没有答案解析的题目时能够有一个软件基于现有的知识进行分析给出一个合理的解释,于是我们决定做一款基于大模型的知识题库统,旨在为考研提供方便。而文科题目“内容多,变化少”的特性,能够完美利用大模型能够处理大量数据、并进行简单思考的优势。于是我们决定以考研政治为主题,以市面上主流的语言大模型为基础,对其进行训练微调,进行独有的知识题库的构建,并应用所学知识搭建页面,使整个系统更加便捷、美观。而我们使用的语言大模型是InternLM。

2024-05-29 15:54:39 572

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除