- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 RAGas使用huggingface数据集生成RAGas支持的评测数据集
摘要:本文介绍了如何利用RAGas评估框架与HuggingFace数据集构建RAG系统评测数据集。RAGas支持生成基于相关性、准确性等指标的测试数据,而HuggingFace提供丰富的开源数据集资源。文章详细展示了从环境配置到测试集生成的全流程:包括数据加载、知识图谱构建、用户角色定义等关键步骤,并提供了完整的Python实现代码示例。该方法通过自动化流程生成高质量评测数据,为RAG系统性能评估提供了可扩展的解决方案,最后展望了未来可能的多模态评估等发展方向。
2025-08-05 11:39:27
488
原创 Python Allure Pytest接口自动化测试:环境搭建
本文介绍了在Windows环境下安装Python 3.9+、uv环境管理工具和PyCharm的完整流程。首先安装Python并验证版本(3.12.10),然后通过pip安装uv进行环境管理。详细说明了uv常用命令,包括安装/卸载包、生成依赖文件等操作。接着介绍了Allure测试框架的安装(2.34.1版本)及环境变量配置。最后指导如何在PyCharm中创建项目并使用uv安装pytest和allure-pytest测试框架。整个流程覆盖了开发环境搭建、包管理和测试框架配置等关键步骤。
2025-07-18 21:32:56
392
原创 关于如何让大中小学生愉快的度过暑假(傻瓜式私有云部署网校)哈哈哈~~
【摘要】本文介绍如何搭建家庭私有云网课系统,帮助学生在暑假期间远离网游沉迷。通过Ubuntu/Centos系统安装宝塔面板,选择PHP 7.4版本,使用"新起点网校"一键部署方案。配置本地IP作为域名,保存数据库信息后完成安装。管理员可通过IP地址/admin访问后台配置课程,学生直接输入IP即可注册学习。该系统操作简单,适合家庭内部使用,为青少年提供健康的网络学习环境。(149字)
2025-06-30 11:16:39
546
原创 Conda的使用
Conda是一款Python包和环境管理工具,支持安装、更新软件包及创建隔离环境。主要发行版包括Anaconda(含180+科学包)和Miniconda(仅基础组件)。配置需添加相关路径到环境变量,建议使用国内镜像源(如清华、豆瓣)加速下载。常用命令涵盖环境管理(创建/激活/删除)、包操作(安装/更新/清理)及版本控制等,例如:conda create -n env_name创建环境,conda install package_name安装包。通过环境yml文件可快速复制或迁移项目环境。
2025-06-30 10:39:39
360
原创 大模型测试(五)、Evalscope自定义数据集进行性能测试
方法以返回一个message,在参数中指定。为自定义数据集名称,即可使用自定义的数据集。
2025-06-17 16:36:07
662
原创 大模型测试(四)、使用Evalscope进行推理性能评测(一)
摘要:本文介绍了使用Evalscope工具评测大模型推理性能的具体方法。首先说明环境要求(NVIDIA显卡和CUDA环境),并给出Python安装命令。测试基于deepseek-r1:1.5b模型,通过Ollama部署。提供了完整的评测脚本示例,包括数据集配置、生成参数设置等。评测完成后会生成多个维度的报告(数据集级、任务级、标签级和类别级),全面评估模型性能。该方法适用于大规模语言模型的系统化评测。
2025-06-06 15:05:52
760
原创 大模型测试(三)、常用大模型评测指标
大模型评测指标主要分为自然语言理解(NLU)、自然语言生成(NLG)、通用能力、伦理与安全和效率五大类。NLU指标包括准确率、F1分数和困惑度,用于分类和语言模型评估;NLG指标如BLEU、ROUGE和METEOR评估生成质量;通用能力指标测试多领域知识和推理;伦理安全指标检测有害内容和偏见;效率指标衡量推理速度和资源消耗。实际应用中需根据任务需求选择合适指标组合,并综合自动评测与人工评估。
2025-06-05 17:28:30
594
原创 大模型测试(二)、使用EvalScope对大模型进行性能测试
EvalScope是一个全面的大模型性能测试工具,测试脚本只需简单配置参数即可运行,包括模型名称、请求URL、并发数等关键参数。测试报告提供了18个核心指标,涵盖吞吐量、延迟时间、token处理效率等维度,包含首次生成token时间(TTFT)、token间时延(ITL)等专业指标。该工具支持多并发测试,能详细记录每个请求的输入输出token数量,并通过百分位指标精确反映模型性能分布情况,为评估大模型表现提供全面数据支持。
2025-06-05 14:21:21
1674
原创 Cherry Studio使用本地模型进行问答
《CherryStudio:一站式AI模型管理神器》 CherryStudio是一个强大的AI工具聚合平台,让用户轻松调用各大厂商的AI模型服务。该项目提供客户端下载和完整的文档支持,特别整合了Ollama等本地模型部署能力。通过CherryStudio,用户可以实现: 集中管理多个AI模型服务 本地部署模型,保障数据隐私 灵活配置不同厂商的模型 享受便捷的一站式AI体验 无论是开发者还是普通用户,都能通过这个工具高效使用各类AI能力,特别适合需要多模型协同或本地化部署的场景。文档详尽,客户端易用,是提升A
2025-06-04 15:32:33
180
原创 大模型测试(一)、使用Ollama部署本地大模型
本文分享了在Windows系统非C盘安装Ollama框架并部署大型语言模型的实践指南。主要内容包括:1)下载安装包至指定目录,通过命令行安装;2)配置环境变量指向模型存储路径;3)从官方库下载轻量级模型deepseek-r1:1.5b,介绍ollama run/pull命令的使用方法。作者将持续更新技术探索笔记,欢迎交流讨论。
2025-06-03 20:41:31
769
互联网测试流程总结 .doc
2012-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人