星渊澈-CSDN博客

原创 RAGas使用huggingface数据集生成RAGas支持的评测数据集

摘要：本文介绍了如何利用RAGas评估框架与HuggingFace数据集构建RAG系统评测数据集。RAGas支持生成基于相关性、准确性等指标的测试数据，而HuggingFace提供丰富的开源数据集资源。文章详细展示了从环境配置到测试集生成的全流程：包括数据加载、知识图谱构建、用户角色定义等关键步骤，并提供了完整的Python实现代码示例。该方法通过自动化流程生成高质量评测数据，为RAG系统性能评估提供了可扩展的解决方案，最后展望了未来可能的多模态评估等发展方向。

2025-08-05 11:39:27 488

原创 Python Allure Pytest接口自动化测试：环境搭建

本文介绍了在Windows环境下安装Python 3.9+、uv环境管理工具和PyCharm的完整流程。首先安装Python并验证版本（3.12.10），然后通过pip安装uv进行环境管理。详细说明了uv常用命令，包括安装/卸载包、生成依赖文件等操作。接着介绍了Allure测试框架的安装（2.34.1版本）及环境变量配置。最后指导如何在PyCharm中创建项目并使用uv安装pytest和allure-pytest测试框架。整个流程覆盖了开发环境搭建、包管理和测试框架配置等关键步骤。

2025-07-18 21:32:56 392

原创关于如何让大中小学生愉快的度过暑假（傻瓜式私有云部署网校）哈哈哈~~

【摘要】本文介绍如何搭建家庭私有云网课系统，帮助学生在暑假期间远离网游沉迷。通过Ubuntu/Centos系统安装宝塔面板，选择PHP 7.4版本，使用"新起点网校"一键部署方案。配置本地IP作为域名，保存数据库信息后完成安装。管理员可通过IP地址/admin访问后台配置课程，学生直接输入IP即可注册学习。该系统操作简单，适合家庭内部使用，为青少年提供健康的网络学习环境。（149字）

2025-06-30 11:16:39 546

原创 Conda的使用

Conda是一款Python包和环境管理工具，支持安装、更新软件包及创建隔离环境。主要发行版包括Anaconda（含180+科学包）和Miniconda（仅基础组件）。配置需添加相关路径到环境变量，建议使用国内镜像源（如清华、豆瓣）加速下载。常用命令涵盖环境管理（创建/激活/删除）、包操作（安装/更新/清理）及版本控制等，例如：conda create -n env_name创建环境，conda install package_name安装包。通过环境yml文件可快速复制或迁移项目环境。

2025-06-30 10:39:39 360

原创大模型测试（五）、Evalscope自定义数据集进行性能测试

方法以返回一个message，在参数中指定。为自定义数据集名称，即可使用自定义的数据集。

2025-06-17 16:36:07 662

原创大模型测试（四）、使用Evalscope进行推理性能评测（二）

本文介绍了使用Evalscope工具进行大模型速度基准测试的方法

2025-06-10 15:30:46 748

原创大模型测试（四）、使用Evalscope进行推理性能评测（一）

摘要：本文介绍了使用Evalscope工具评测大模型推理性能的具体方法。首先说明环境要求（NVIDIA显卡和CUDA环境），并给出Python安装命令。测试基于deepseek-r1:1.5b模型，通过Ollama部署。提供了完整的评测脚本示例，包括数据集配置、生成参数设置等。评测完成后会生成多个维度的报告（数据集级、任务级、标签级和类别级），全面评估模型性能。该方法适用于大规模语言模型的系统化评测。

2025-06-06 15:05:52 760

原创大模型测试（三）、常用大模型评测指标

大模型评测指标主要分为自然语言理解（NLU）、自然语言生成（NLG）、通用能力、伦理与安全和效率五大类。NLU指标包括准确率、F1分数和困惑度，用于分类和语言模型评估；NLG指标如BLEU、ROUGE和METEOR评估生成质量；通用能力指标测试多领域知识和推理；伦理安全指标检测有害内容和偏见；效率指标衡量推理速度和资源消耗。实际应用中需根据任务需求选择合适指标组合，并综合自动评测与人工评估。

2025-06-05 17:28:30 594

原创大模型测试（二）、使用EvalScope对大模型进行性能测试

EvalScope是一个全面的大模型性能测试工具，测试脚本只需简单配置参数即可运行，包括模型名称、请求URL、并发数等关键参数。测试报告提供了18个核心指标，涵盖吞吐量、延迟时间、token处理效率等维度，包含首次生成token时间(TTFT)、token间时延(ITL)等专业指标。该工具支持多并发测试，能详细记录每个请求的输入输出token数量，并通过百分位指标精确反映模型性能分布情况，为评估大模型表现提供全面数据支持。

2025-06-05 14:21:21 1674

原创 Cherry Studio使用本地模型进行问答

《CherryStudio：一站式AI模型管理神器》 CherryStudio是一个强大的AI工具聚合平台，让用户轻松调用各大厂商的AI模型服务。该项目提供客户端下载和完整的文档支持，特别整合了Ollama等本地模型部署能力。通过CherryStudio，用户可以实现：集中管理多个AI模型服务本地部署模型，保障数据隐私灵活配置不同厂商的模型享受便捷的一站式AI体验无论是开发者还是普通用户，都能通过这个工具高效使用各类AI能力，特别适合需要多模型协同或本地化部署的场景。文档详尽，客户端易用，是提升A

2025-06-04 15:32:33 180

原创大模型测试（一）、使用Ollama部署本地大模型

本文分享了在Windows系统非C盘安装Ollama框架并部署大型语言模型的实践指南。主要内容包括：1)下载安装包至指定目录，通过命令行安装；2)配置环境变量指向模型存储路径；3)从官方库下载轻量级模型deepseek-r1:1.5b，介绍ollama run/pull命令的使用方法。作者将持续更新技术探索笔记，欢迎交流讨论。

2025-06-03 20:41:31 769

互联网测试流程总结 .doc

1、需求讨论，测试角度关注的问题：　　（1）系统架构、开发方法、人员安排、实现过程、开发周期　　（2）产品应用范围、面向的用户及用户人数、产品要实现的功能、使用的数据类型　　（3）开发环境：开发工具版本、数据库版本、操作系统版本　　（4）运行环境：硬件平台、操作系统、支撑环境（数据库版本、IE版本）、相关组件、服务　　（5）安全要求：产品权限、数据库权限、部署的服务器信息、防火墙信息、要放开的端口号　　（6）性能需求：系统支持的并发数量、响应时间、数据库中数据容量、占用的系统CPU、磁盘空间、传输速度、网络带宽等。

2012-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人