自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 RAGas使用huggingface数据集生成RAGas支持的评测数据集

摘要:本文介绍了如何利用RAGas评估框架与HuggingFace数据集构建RAG系统评测数据集。RAGas支持生成基于相关性、准确性等指标的测试数据,而HuggingFace提供丰富的开源数据集资源。文章详细展示了从环境配置到测试集生成的全流程:包括数据加载、知识图谱构建、用户角色定义等关键步骤,并提供了完整的Python实现代码示例。该方法通过自动化流程生成高质量评测数据,为RAG系统性能评估提供了可扩展的解决方案,最后展望了未来可能的多模态评估等发展方向。

2025-08-05 11:39:27 488

原创 Python Allure Pytest接口自动化测试:环境搭建

本文介绍了在Windows环境下安装Python 3.9+、uv环境管理工具和PyCharm的完整流程。首先安装Python并验证版本(3.12.10),然后通过pip安装uv进行环境管理。详细说明了uv常用命令,包括安装/卸载包、生成依赖文件等操作。接着介绍了Allure测试框架的安装(2.34.1版本)及环境变量配置。最后指导如何在PyCharm中创建项目并使用uv安装pytest和allure-pytest测试框架。整个流程覆盖了开发环境搭建、包管理和测试框架配置等关键步骤。

2025-07-18 21:32:56 392

原创 关于如何让大中小学生愉快的度过暑假(傻瓜式私有云部署网校)哈哈哈~~

【摘要】本文介绍如何搭建家庭私有云网课系统,帮助学生在暑假期间远离网游沉迷。通过Ubuntu/Centos系统安装宝塔面板,选择PHP 7.4版本,使用"新起点网校"一键部署方案。配置本地IP作为域名,保存数据库信息后完成安装。管理员可通过IP地址/admin访问后台配置课程,学生直接输入IP即可注册学习。该系统操作简单,适合家庭内部使用,为青少年提供健康的网络学习环境。(149字)

2025-06-30 11:16:39 546

原创 Conda的使用

Conda是一款Python包和环境管理工具,支持安装、更新软件包及创建隔离环境。主要发行版包括Anaconda(含180+科学包)和Miniconda(仅基础组件)。配置需添加相关路径到环境变量,建议使用国内镜像源(如清华、豆瓣)加速下载。常用命令涵盖环境管理(创建/激活/删除)、包操作(安装/更新/清理)及版本控制等,例如:conda create -n env_name创建环境,conda install package_name安装包。通过环境yml文件可快速复制或迁移项目环境。

2025-06-30 10:39:39 360

原创 大模型测试(五)、Evalscope自定义数据集进行性能测试

方法以返回一个message,在参数中指定。为自定义数据集名称,即可使用自定义的数据集。

2025-06-17 16:36:07 662

原创 大模型测试(四)、使用Evalscope进行推理性能评测(二)

本文介绍了使用Evalscope工具进行大模型速度基准测试的方法

2025-06-10 15:30:46 748

原创 大模型测试(四)、使用Evalscope进行推理性能评测(一)

摘要:本文介绍了使用Evalscope工具评测大模型推理性能的具体方法。首先说明环境要求(NVIDIA显卡和CUDA环境),并给出Python安装命令。测试基于deepseek-r1:1.5b模型,通过Ollama部署。提供了完整的评测脚本示例,包括数据集配置、生成参数设置等。评测完成后会生成多个维度的报告(数据集级、任务级、标签级和类别级),全面评估模型性能。该方法适用于大规模语言模型的系统化评测。

2025-06-06 15:05:52 760

原创 大模型测试(三)、常用大模型评测指标

大模型评测指标主要分为自然语言理解(NLU)、自然语言生成(NLG)、通用能力、伦理与安全和效率五大类。NLU指标包括准确率、F1分数和困惑度,用于分类和语言模型评估;NLG指标如BLEU、ROUGE和METEOR评估生成质量;通用能力指标测试多领域知识和推理;伦理安全指标检测有害内容和偏见;效率指标衡量推理速度和资源消耗。实际应用中需根据任务需求选择合适指标组合,并综合自动评测与人工评估。

2025-06-05 17:28:30 594

原创 大模型测试(二)、使用EvalScope对大模型进行性能测试

EvalScope是一个全面的大模型性能测试工具,测试脚本只需简单配置参数即可运行,包括模型名称、请求URL、并发数等关键参数。测试报告提供了18个核心指标,涵盖吞吐量、延迟时间、token处理效率等维度,包含首次生成token时间(TTFT)、token间时延(ITL)等专业指标。该工具支持多并发测试,能详细记录每个请求的输入输出token数量,并通过百分位指标精确反映模型性能分布情况,为评估大模型表现提供全面数据支持。

2025-06-05 14:21:21 1674

原创 Cherry Studio使用本地模型进行问答

《CherryStudio:一站式AI模型管理神器》 CherryStudio是一个强大的AI工具聚合平台,让用户轻松调用各大厂商的AI模型服务。该项目提供客户端下载和完整的文档支持,特别整合了Ollama等本地模型部署能力。通过CherryStudio,用户可以实现: 集中管理多个AI模型服务 本地部署模型,保障数据隐私 灵活配置不同厂商的模型 享受便捷的一站式AI体验 无论是开发者还是普通用户,都能通过这个工具高效使用各类AI能力,特别适合需要多模型协同或本地化部署的场景。文档详尽,客户端易用,是提升A

2025-06-04 15:32:33 180

原创 大模型测试(一)、使用Ollama部署本地大模型

本文分享了在Windows系统非C盘安装Ollama框架并部署大型语言模型的实践指南。主要内容包括:1)下载安装包至指定目录,通过命令行安装;2)配置环境变量指向模型存储路径;3)从官方库下载轻量级模型deepseek-r1:1.5b,介绍ollama run/pull命令的使用方法。作者将持续更新技术探索笔记,欢迎交流讨论。

2025-06-03 20:41:31 769

互联网测试流程总结 .doc

1、需求讨论,测试角度关注的问题:   (1)系统架构、开发方法、人员安排、实现过程、开发周期   (2)产品应用范围、面向的用户及用户人数、产品要实现的功能、使用的数据类型   (3)开发环境:开发工具版本、数据库版本、操作系统版本   (4)运行环境:硬件平台、操作系统、支撑环境(数据库版本、IE版本)、相关组件、服务   (5)安全要求:产品权限、数据库权限、部署的服务器信息、防火墙信息、要放开的端口号   (6)性能需求:系统支持的并发数量、响应时间、数据库中数据容量、占用的系统CPU、磁盘空间、传输速度、网络带宽等。

2012-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除