- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 大模型测试(四)、使用Evalscope进行推理性能评测(一)
摘要:本文介绍了使用Evalscope工具评测大模型推理性能的具体方法。首先说明环境要求(NVIDIA显卡和CUDA环境),并给出Python安装命令。测试基于deepseek-r1:1.5b模型,通过Ollama部署。提供了完整的评测脚本示例,包括数据集配置、生成参数设置等。评测完成后会生成多个维度的报告(数据集级、任务级、标签级和类别级),全面评估模型性能。该方法适用于大规模语言模型的系统化评测。
2025-06-06 15:05:52
385
原创 大模型测试(三)、常用大模型评测指标
大模型评测指标主要分为自然语言理解(NLU)、自然语言生成(NLG)、通用能力、伦理与安全和效率五大类。NLU指标包括准确率、F1分数和困惑度,用于分类和语言模型评估;NLG指标如BLEU、ROUGE和METEOR评估生成质量;通用能力指标测试多领域知识和推理;伦理安全指标检测有害内容和偏见;效率指标衡量推理速度和资源消耗。实际应用中需根据任务需求选择合适指标组合,并综合自动评测与人工评估。
2025-06-05 17:28:30
314
原创 大模型测试(二)、使用EvalScope对大模型进行性能测试
EvalScope是一个全面的大模型性能测试工具,测试脚本只需简单配置参数即可运行,包括模型名称、请求URL、并发数等关键参数。测试报告提供了18个核心指标,涵盖吞吐量、延迟时间、token处理效率等维度,包含首次生成token时间(TTFT)、token间时延(ITL)等专业指标。该工具支持多并发测试,能详细记录每个请求的输入输出token数量,并通过百分位指标精确反映模型性能分布情况,为评估大模型表现提供全面数据支持。
2025-06-05 14:21:21
1334
原创 Cherry Studio使用本地模型进行问答
《CherryStudio:一站式AI模型管理神器》 CherryStudio是一个强大的AI工具聚合平台,让用户轻松调用各大厂商的AI模型服务。该项目提供客户端下载和完整的文档支持,特别整合了Ollama等本地模型部署能力。通过CherryStudio,用户可以实现: 集中管理多个AI模型服务 本地部署模型,保障数据隐私 灵活配置不同厂商的模型 享受便捷的一站式AI体验 无论是开发者还是普通用户,都能通过这个工具高效使用各类AI能力,特别适合需要多模型协同或本地化部署的场景。文档详尽,客户端易用,是提升A
2025-06-04 15:32:33
136
原创 大模型测试(一)、使用Ollama部署本地大模型
本文分享了在Windows系统非C盘安装Ollama框架并部署大型语言模型的实践指南。主要内容包括:1)下载安装包至指定目录,通过命令行安装;2)配置环境变量指向模型存储路径;3)从官方库下载轻量级模型deepseek-r1:1.5b,介绍ollama run/pull命令的使用方法。作者将持续更新技术探索笔记,欢迎交流讨论。
2025-06-03 20:41:31
626
互联网测试流程总结 .doc
2012-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人