OpenCompass 大模型评测实战基础作业

最新推荐文章于 2024-11-17 21:01:01 发布

m0_65989999

最新推荐文章于 2024-11-17 21:01:01 发布

阅读量315

点赞数 10

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_65989999/article/details/138155313

版权

安装环境

数据准备

查看支持的数据集和模型列出所有跟 InternLM 及 C-Eval 相关的配置

结果将会得到

3.启动评测 (10% A100 8GB 资源)

遇到错误解决方案

解决方案：

pip install protobuf

命令解析

python run.py --datasets ceval_gen \ --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \ # HuggingFace 模型路径 --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \ # HuggingFace tokenizer 路径（如果与模型路径相同，可以省略） --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \ # 构建 tokenizer 的参数 --model-kwargs device_map='auto' trust_remote_code=True \ # 构建模型的参数 --max-seq-len 1024 \ # 模型可以接受的最大序列长度 --max-out-len 16 \ # 生成的最大 token 数 --batch-size 2 \ # 批量大小 --num-gpus 1 # 运行模型所需的 GPU 数量 --debug

遇到错误mkl-service + Intel(R) MKL MKL_THREADING_LAYER=INTEL is incompatible with libgomp.so.1 ... 解决方案：

export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU

如果一切正常，您应该看到屏幕上显示 “Starting inference process”：

测评介结束将会得到

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_65989999

关注关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

国联证券-计算机行业专题研究_AI大模型成果不断涌现_AGI或将到来.pdf

07-01

##### 1.2 谷歌全面升级基础大模型及应用谷歌在其年度开发者大会I/O上展示了其最新的AI技术进展，包括Gemini模型的升级版以及新发布的文生图模型Imagen 3和视频生成模型Veo。这些更新不仅增强了模型的基础能力，还...

OpenCompass 司南大模型测评

2301_77641278的博客

04-19

1706

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现：提供公平、公开、可复现的大模型评测方案全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力丰富的模型支持：已支持 20+ HuggingFace 及 API 模型分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测。

参与评论您还未登录，请先登录后发表或查看评论

人工智能行业深度报告：WAIC2024，国产AI+应用“百花齐放”

07-21

据OpenCompass测评榜单显示，国产大模型在数学、逻辑推理、知识理解等方面的能力有了显著提升，逐渐逼近甚至在某些领域超过了GPT-4等国际领先模型。这些进步不仅体现在技术层面，更重要的是，它们为国产AI生态打开了...

Llama-2首个全方位评测国内外开源模型大比拼.docx

08-23

Llama-2 首个全方位评测国内外开源模型大比拼在本文中，我们将对 Llama-2 进行全方位的评测，涵盖模型架构、预训练语料、监督微调、安全训练技术等方面的改进，并对其在多个评测集上的表现进行了详细的分析。一...

OpenCompass是一个法学硕士评估平台，支持超过100多个数据集的广泛模型

02-07

OpenCompass是一个专为法学硕士评估设计的平台，它整合了多种先进的自然语言处理模型，如InternLM2、GPT-4、LLaMa2、Qwen以及GLM和Claude等。这些模型代表了当前AI技术在理解和生成人类语言方面的最新成就，使得...

OpenCompass是一个法学硕士评估平台，支持超过100多个数据集的广泛模型(InternLM2,GPT-4,LLaMa2

02-06

OpenCompass是一个专为法学硕士设计的评估平台，其核心特性在于它能够支持广泛的机器学习和人工智能模型，这些模型包括但不限于InternLM2、GPT-4、LLaMa2、Qwen、GLM以及Claude等。这个平台的创建旨在通过先进的技术...

ks8 本地化部署 F5-TTS

陈锐的技术笔记

11-13

913

此外，F5-TTS 还创新性地引入了推理时的 Sway Sampling 策略，这一策略可以在推理阶段优先处理早期的流步骤，从而提高生成语音与输入文本的对齐效果。在 LibriSpeech-PC 数据集上，该模型的字错误率（WER）达到了2.42，并且在推理时的实时因子(RTF)为0.15，显著优于之前的扩散模型 E2TTS，后者在处理速度和鲁棒性上存在短板。传统的 TTS 模型往往需要进行复杂的持续时间建模、音素对齐和专门的文本编码，这些都增加了合成过程的复杂性。继续TSS的启动，进入pod 输入命令。

基于OpenFOAM和深度学习驱动的流体力学计算与应用

2301_80236428的博客

11-14

690

从物理模型融合到复杂流动模拟，从数据驱动研究到流场智能分析，深度学习正以前所未有的力量重塑流体力学领域。伴随深度学习在流体力学研究中应用的普及，相关的开源软件和工具为科研人员提供了便捷的平台，简化了深度学习模型的实现与应用过程，加速了研究成果的转化。深度学习架构能够有效从流体数据中抽取关键特征，应用于流场预测、流动优化、流场可视化等多个领域，极大地提升了流体问题的分析效率和精度。构建物理增强的深度学习模型，将流体力学的控制方程、边界条件等物理规则内嵌于模型中，以提高模型的准确性和物理一致性。

文献阅读 | Nature Communications：使用自适应图注意自动编码器从空间解析的转录组学中解读空间域

weixin_45851732的博客

11-15

1177

文献介绍文献题目：使用自适应图注意自动编码器从空间解析的转录组学中解读空间域研究团队：张世华（中国科学院数学与系统科学研究院）发表时间： 2022-04-01 发表期刊： Nature Communications 影响因子： 17.6（2022年） DOI： 10.1038/s41467-022-29439-6 摘要空间分辨转录组学的最新进展使得能够全面测量基因表达模式，同时保留组织微环境的空间背景。破译组织中 spots 的空间背景需要仔细使用它们的空间信息。为此，作者开发了一个图注

pytorch基础-数据集导入

gudao07的博客

11-14

1021

pytorch的数据导入，包括dataset,tensorboard,transform,dataloder等

acl论文记录2021-2022

yyfhq的博客

11-16

189

Prefix-Tuning: Optimizing Continuous Prompts for Generation GPT-NeoX-20B: An Open-Source Autoregressive Language Model GLM: General Language Model Pretraining with Autoregressive Blank Infilling LayoutLMv2: Multi-modal Pre-training for Visually-Rich Docume

出海东南亚，3C电子如何以客户服务赢得市场

weixin_56254502的博客

11-13

428

随着全球贸易的日益活跃和东南亚地区经济的快速增长，3C电子产品出海东南亚已成为众多企业拓展国际市场的重要战略。东南亚地区人口众多，消费潜力巨大，且年轻人口占比高，对智能手机、平板电脑、耳机等3C电子产品的需求持续增长。同时，东南亚地区的电子消费者市场正逐渐成熟，消费者对产品品质、售后服务的要求也在不断提高。在此背景下，3C电子企业要想在东南亚市场立足，除了提供高品质的产品外，还需在客户服务方面下足功夫。通过优质的客户服务，企业不仅可以提升品牌形象，增强消费者信任，还可以有效促进销售增长，赢得市场份额。

AI测试的主要研究方向介绍

daopuyun的博客

11-15

775

这个框架将支持对不同主题的基础测试数据集进行文本分词、图像标注、特征筛选等加工处理，为不同AI医疗产品提供定制化的测试数据，解决医学数据模块的通用性与特定测试数据集需求之间的冲突，确保测试数据集既具有足够的广泛性，覆盖多种医疗场景，又能满足特定AI医疗产品的测试需求，提高人工智能系统测试的针对性和可靠性。首先，基于模型的人工智能系统测试方法，通过构建可追踪、可测试的人工智能测试模型，将智能学习模型和数据模型融入其中，从而更好地评估训练数据和测试数据的质量。等需求，欢迎私信我，一起技术交流、探讨。

AI赋能电商：从个性化推荐到智能化运营

2301_81482480的博客

11-16

890

人工智能的未来展望与挑战

rpduvftj43的博客

11-16

395

人工智能在各行业广泛应用，提升生产力和生活品质。面对隐私和伦理挑战，需加强教育、制定法规、促进合作，以实现安全和公平的技术发展

YOLOv11改进，YOLOv11添加GnConv递归门控卷积，二次创新C3k2结构

weixin_44779079的博客

11-15

196

gnConv 是一种高效的空间交互操作，通过递归门控卷积实现长距离和高阶的空间交互。其核心思想是通过使用标准卷积、线性投影和逐元素乘法，模拟自注意力中的输入自适应空间混合，但具有更低的计算复杂度。输入自适应的空间交互在传统的卷积神经网络中，卷积操作是通过固定的卷积核对邻域进行加权求和，从而聚合邻域特征。这种方法的缺点是，卷积核是固定的，不具备自适应的能力。与此不同，gnConv 引入了自适应的空间交互，类似于 Transformer 中的自注意力机制。在自注意力机制中，通过多头自注意力（MHSA）

基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络