xhha18-CSDN博客

原创 2024软件学院创新项目实训（9）--多次评估比对

C-Eval是目前权威的中文AI大模型评测数据集之一，C-Eval数据集主要用于评测大模型的知识和逻辑推理能力，即大模型是否能够认识和理解广泛的世界知识，并类似人类一样对事物进行推理规划。正确率较高，进步验证微调的结果。本篇文章在记录（6）的基础上，进一步对微调前的模型进行测评，观察微调后的模型是否有更好的表现性能。可以发现正确率有明显的提高，由此可以得出通过微调，我们得到了一个表现能力和性能更好的模型。与上次评估的结果针对最后几行进行对比。

2024-06-23 22:29:20 205

原创 2024软件学院创新项目实训（8）--进阶评估

OpenCompass的自定义操作都依赖于配置文件，配置文件都为py文件，OpenCompass提供了很多可以直接使用的py文件，一个配置文件中要同时包含 datasets和 models字段。自定义模型需要找到指定模型的路径。models = [dict(# 以下参数为 `HuggingFaceCausalLM` 的初始化参数导入相应的数据集from .datasets.ceval.ceval_clean_ppl import ceval_datasets # 有污染标记的 ceval 数据集。

2024-06-23 18:09:16 312

原创 2024软件学院创新项目实训（6）--评估模型性能

模型评估是指对训练的机器学习模型进行性能评估和验证的过程。模型评估旨在确定模型的泛化能力，即模型在未见过的数据上的表现。下面是一些模型评估相关的概念：训练集、验证集和测试集：在模型训练过程中，通常将数据集划分为训练集、验证集和测试集。训练集用于训练模型，验证集用于调整模型的超参数和评估模型的性能，而测试集则用于最终评估模型的泛化能力。性能指标：模型评估的主要目标是使用适当的性能指标来衡量模型的表现。常见的性能指标包括准确率、精确率、召回率、F1分数、ROC曲线下面积等。

2024-06-23 15:36:07 510

原创 2024软件学院创新项目实训（7）--评估表现能力

版本，是记录历史、传承文明的“金种子”。为了获得可以对政治题表现能力最好的模型，我们项目微调了多个版本，为比较模型的表现能力，我们使用7道单选题，7道多选题，3道综合题作为测试集进行测试，对于选择题，从两个方面进行评估，一是正确率，二是解析是否有参考意义，对于综合题，则观察其是否有标准解析的要点，以及答案是否只是泛泛而谈不够精炼。多选题总结：多选题分为历史事件解析，概念分析两种问题，一共七道题，前者正确率42.9%，后者正确率57.1%，正确率一般，正确的题目解析较好，错误的题目解析也很糟糕。

2024-06-23 12:11:04 651

原创 2024软件学院创新项目实训（5）--了解量化

随着大模型的发展，大模型的规模越来越大，模型的参数已突破上万亿的规模，为了降低模型的成本，就必须采取一些压缩技术来减小规模，压缩技术主要有：剪枝，知识蒸馏，量化，低秩分解。通过了解，除量化之外的三种方法对模型的损失都较大，因此量化逐渐成为了模型压缩最重要的方法。但是这些优化是要付出代价的，减小模型的规模难以避免的付出相应代价，对于本项目，量化后的答题效果并不理想，正确率和解析效果都有较大的降低，所以最终决定不使用量化后的版本。对量化的初步了解，就是对大模型进行压缩，减少他的存储空间，提高他的计算速度。

2024-06-23 10:41:27 414

原创 2024软件学院创新项目实训（4）--了解部署和微调

本篇博客了解部署和微调相关知识，本项目具体的部署微调流程可以查看另一位成员的博客使用恒源云和LMDeploy对大模型进行部署，使用Xturner并用自己的数据集进行微调，这两个过程在成员的博客中写得很详细，本篇博客不再赘述，着眼于这两部分的扩展，学习相关的其他的知识。

2024-06-23 10:18:00 1267

原创 2024软件学院创新项目实训（3）--数据集制作

本篇博客记录数据集的生成，由于网络上没有关于考研政治的数据集，因此我们要从头开始寻找数据，上篇博客中提到，我们的大模型需要的数据集格式为json，我们希望寻找的数据为市面上流通的近几年的肖四肖八真题及考研政治真题，大多为pdf文件和doc文件，json中需要的也仅仅是政治题目的文本，直接将pdf中的文字提取转化为json显然是困难的，因此初步的任务流程为。此外还要注意区别不同的题型，这里通过答案来分析，如果答案为A,B,C,D中的一个，则为单选题，若为多个字母，为单选题，其他为综合体。

2024-05-30 23:55:40 438

原创 2024软件学院创新项目实训（2）--数据集知识学习

每一行都对应于某一成员的数据集的问题。数据集的相关定义比较简单，在机器学习和大模型等领域广泛使用，并且它为数据可视化提供了极大的便利，但是在本项目中，对考研政治题的数据可视化是没有必要的，所以我们着眼于关于数据集的应用，通过观察分析那些出色的数据集，来构思我们项目需要的数据集应该如何产生。COCO，是一个大规模的，适用于目标检测，图像分割，Image Captioning任务的数据集，其标注格式是最常用的几种格式之一。数据集的种类有很多，文本，表格，图像等等，面对不同领域的应用，需要的数据集也很不一样。

2024-05-29 20:46:05 1313

原创 2024软件学院创新项目实训（1）--了解相关技术

在日常使用GPT的过程中，我们可以发现，对于一些时政，政治问题，GPT的回答总是不够准确，回答的内容总不在要点上，有时的回答甚至是错误的，因此借着创新项目实训大模型题目的契机，以及我们团队成员都有考研需求，我们团队决定开发一个基于InternLM的考研政治题库系统，项目的大体流程其他同学已经更新博客，作为大模型方面的知识小白，在本篇博客中希望对本项目中运用的一些技术进行学习和了解，对项目的技术点有清晰的理解，为以后的任务工作打下基础。在gitee上InterLM是这样介绍自己的，

2024-05-04 19:53:47 1441 1

m0_62576028的博客