质问-CSDN博客

原创 concolic testing是什么

Concolic testing是符号执行和具体执行的结合体，是软件测试和程序分析领域广泛使用的技术，尤其是在自动生成测试用例、路径探索、漏洞检测等方面。concolic是concrete（具体）和symbolic（符号）两个单词的结合体。Concolic testing 的核心目标是自动生成输入数据来覆盖程序的不同执行路径，从而发现bug、验证属性或提升代码覆盖率。它特别适合处理复杂的条件分支、循环和约束。它使用数学求解器来系统地探索路径，而不是纯随机。这也是和fuzzing test最根本的区别。

2026-03-02 10:53:21 23

原创测试工程师面对大模型应用的思考

现在有很多开源的大模型编排的框架，例如LangChain、Llamaindex、crewAI等等，那么无论面对的是一个多么奇幻的系统，对于测试工程师而言都是简单直接“大模型编排框架就是被测系统的应用架构多了一层公共部分，任何被测系统的组成部分都要进行测试，所以大模型编排框架也应该被测试。传统的测试我们关注正确或者错误的输出，但是大模型是基于概率运行的，而不是我们确定性的输出。在自动化测试的时候，借助原来自动化测试框架的能力就可以实现上述验证内容的自动化，我们只需要变换一下断言的写法。

2026-02-04 15:53:11 43

原创模拟Clade Code的Skills机制的demo代码

GitHub：https://github.com/crisschan/mini_skills_runtime本地 Skill 执行运行时 - 完全对齐 Claude Code 的 Skills 组织方式快速开始1. 安装依赖2. 启动 Ollama（用于 LLM 功能）3. 运行 Demo基础 Demo（无 LLM）展示：展示：简单对话注意: 方法仅用于演示 LLM 基础功能，实际项目中建议直接使用 Skill 执行流程。工具调用LLM Runtime 支持工具调用。当

2026-02-02 16:12:23 95

原创提示词工程中的上下文隔离

已经进入context的prompt是没有办法让大模型真正的忘记的，但是可以通过prompt技巧强约束模型的后续推理中“不再使用、不再提及、不再引用”某部分提示词，这其实是一种行为抑制（behavior suppression），并不是删除。

2026-01-13 16:55:20 70

原创 LangChain的Deep Agents测试的反思

langchain搭载了几个deepagent，在这些deepagent测试过程中，他们总结了如下几点经验。

2026-01-12 17:25:09 98

原创 Langchain的Deepagents简介

DeepAgent是相对于ShadowAgent而定义的，是一种长任务的Agent。

2026-01-12 15:08:56 101

原创上下文工程入门

这是Agent可以使用的工具，每一个工具都包含了名字、描述、参数和返回格式。tools的定义一般在序列化后放在系统提示词的前面或者后面。工具描述引导了agent的行为，推荐工具的描述要包含使用上下文、例子和一些默认值。

2025-12-30 17:45:36 51

原创 Claude的Skills详解

skill目录下最小集合是必须有一个SKILL.md文件，其他类似scripts/，references/，assets/等都是可选择项。在SKILL.md文件中，YAML格式的定义内容是必须存在的。---------metadata:---FieldRequiredYes最大64个字符。仅限小写字母、数字和连字符。不得以连字符开头或结尾。Yes最大1024个字符。非空字段。描述技能功能及使用场景。No许可证名称或捆绑许可证文件的引用。No最大500个字符。

2025-12-26 18:08:11 2493

原创 U+2011（Non-Breaking Hyphen）在UI测试中需要关注的问题

U+2011（Non-Breaking Hyphen，非断行连字符）是一种Unicode字符，旨在防止在连字符处自动换行，主要用于排版和文档处理中（如保持复合词如"non-breaking"在行尾不被拆分）。它与普通的ASCII hyphen-minus（U+002D，即"-“）在视觉上相似，但作为不同的码点，在实际渲染时容易引发兼容性问题。这个问题主要是因为字体支持不完整和宣言引擎的差异造成的。

2025-12-16 14:16:08 69

原创 BDD测试用例：Playwright的MCP Server实战

Playwright MCP Server建立了大模型和真实的浏览环境之间的桥梁，可以让大模型操作多款浏览器完成测试任务。

2025-12-09 17:03:05 205

原创 BDD测试用例：Playwright的MCP Server实战

使用了Claude Desktop，配置了playwright mcp server，在模型上使用的 sonnet-4.5，完成的所有的工作。

2025-12-09 14:45:49 165

原创搭建 Newman + Postman + Git + Jenkins 环境教程

一步步搭建 Newman、Postman、Git 和 Jenkins 的环境。这些工具常用来做 API 测试和 CI/CD 自动化，尤其是 Postman 和 Newman 搭配 Git 和 Jenkins，能实现 API 集合的版本管理和自动测试。

2025-12-08 16:38:44 276 1

原创 Gherkin格式的测试用例和需求的设计

中文英文用途功能Feature描述一个功能规则Rule业务规则（可选）背景Background每个场景前都会执行场景Scenario单个测试场景场景大纲数据驱动模板例子Examples场景大纲的数据表给定Given前置条件当When触发动作那么Then预期结果并且And延续上一步（任意）但是But否定延续。

2025-12-05 17:05:13 119

原创软件质量工程是熵减在工业过程控制领域的实现

熵（Entropy）是信息论里最核心的概念，发明人香农把它叫做“信息熵”。它其实就是衡量一个随机变量（或消息）的不确定性有多大，是系统无序或者不确定性的度量。我们可以通过平均需要多少比特来描述一个随机变量的不确定性来描述熵的大小。举个例子，假设天气预报有四种可能，分别是晴、阴、雨、雪，每种天气的概率都是25%，那么我们可以使用2个bit，也就是00、01、10、11来表示这四种平均概率的天气，因此熵就是2bit。

2025-11-19 16:02:08 107

原创知识工程简介

知识工程（Knowledge Engineering，KE）是一门以知识为处理对象，利用人工智能原理、方法和技术，设计、构造和维护知识型系统的学科。它被视为人工智能的一个重要应用分支，旨在将人类专家的知识转化为计算机可处理的格式，从而构建能够模拟专家决策的智能系统。知识工程的概念最早于1977年提出，当时主要围绕专家系统的研究展开。专家系统是将专业领域的专家知识收集、存储并应用于问题求解的核心形式。

2025-10-24 10:09:36 222

原创白话FNN、RNN、Attention和self-attention等

我尝试同过炸酱面的例子，让所有人都能理解Transformer的核心Self-Attention。你在做老北京炸酱面的酱，食谱包括一系列步骤：准备食材（干黄酱、甜面酱、猪肉、葱姜等）、洗菜、切菜（葱姜蒜等）、炒肉，调和干黄酱、甜面酱、凉水、酱油后，加入锅中，慢炖成酱。我们将从FNN开始讲起，最终讲到Self-Attention，每个算法将以不同的方式处理这个食谱，从简单的单步处理到复杂的全局优化，模拟从新手到大师级厨师的进化。

2025-08-27 14:58:52 258

原创 QA Pairs生成：大模型应用评测实践

2 question_min_length和question_max_length，answer_min_length和answer_max_length，后面其他验证的配置可以不配置，如果配置了也不起作用。这QA Pairs的准备往往会难住很多人，这是因为作为一个测试工程师怎么从已经知道的文档中抽象出问答对是一个很难说清楚的工作，这里面很多技能并能仅仅靠测试领域的知识就可以完成的，往往需要更多的业务知识、表达能力、理解能力等等。: 使用聚类算法检测重复的QA pairs。方法一：使用完整脚本（推荐）

2025-08-21 15:20:57 377

原创 Tokens估算方法

Tokens的计算其实是和具体的上下文、tokenizer（分词器）有关系，不同的模型会使用不同的tokenizer（如BPE、WordPiece、SentencePiece等），对 token 与单词/字符的对应关系产生影响。

2025-08-18 14:03:03 609

原创 QAGenerationChain从知识库生成大模型应用测试的问题对

针对中文 QA 对检查高度相似的重复问题，需要考虑中文的语言特性，例如分词和语义相似度计算。那么在检查过程中往往是一次走查完成每个问题对如上三个方面的检查，如果在检查过程中发现有问题和对应chunk文本内容不相关、答案包含了不准确或者幻觉、表达描述模糊，那么都要通过调整模型、模型参数、提示词后进行重新生成，或者人工加工修改上述问题后才可以使用。对于生成的问题并不是每次生产的都是可以使用的，对内容也是需要验证的，再评价生成的问题对的时候一般从问题相关性、答案的准确性和语义完整性三个方面进行一下评价。

2025-08-08 17:19:41 369

原创 query改写：大模型应用测试离不开的实践

queryrewrite是一个Python库，提供多种查询改写方法（LLM改写、词汇表改写、同义词改写）和验证机制（ROUGE-L/BLEU验证、帕累托最优等），用于快速扩充测试数据并保持语义一致性。该项目特别优化了对中文文本的处理，支持与多种LLM（如OpenAI）集成，并可通过扩展接口添加新的LLM支持。安装方式包括pip直接安装或源码安装，适用于需要丰富测试数据或提升搜索系统性能的场景。

2025-08-06 11:28:50 381

原创 BLEU Score详解和代码实现

计算机器翻译输出（候选翻译）中与参考翻译匹配的 n-gram 的比例。对于不同阶数的 n-gram（通常取 1-gram 到 4-gram），计算如下：统计候选翻译中每个 n-gram 出现的次数。对于每个 n-gram，检查参考翻译中该 n-gram 的最大出现次数（以防止过度匹配）。计算匹配的 n-gram 数量，除以候选翻译中总的 n-gram 数量，得到该阶 n-gram 的精确度 Pn P_n Pn。多参考翻译。

2025-08-01 14:39:22 350

原创 ROUGE详解和代码实现

ROUGE-1重点用来覆盖内容覆盖，ROUGE-2重点评价流畅性。，ROUGE-L重点评价结构相似性。ROUGE并不会评价语义，因此还是需要人工评价或者引入其他的评价方法。最终结果非常受参考文本的影响，在复杂任务重需要对每个问题设计多个参考文本，来保障结果的可靠性。

2025-08-01 09:48:05 396

原创大模型评测指标：ROUGE详解和代码实现

2025-07-31 15:34:45 523

原创 Chat、Agent和Workflow以及相关测试的思考

Chat、Agent 和 Workflow 各有侧重，长期共存，满足不同的 LLM 使用需求；测试设计需要针对具体类型定制方案，聚焦业务需求而非泛化指标。如果在实际工作中需要进一步细化测试方案，可以考虑引入A/B 测试（对比不同模型或配置的性能）、用户反馈循环（收集真实用户交互数据）和错误分析（针对失败案例深入分析原因）。

2025-07-30 09:35:09 379

原创 AI赋能软件工程让测试左移更加可实施

测试工程师还积极参与开发工作，与开发团队协作优化AI生成代码的System Prompt及针对具体业务需求的User Prompt，从而显著提升生成代码的质量。测试工程师的独特优势在于其全局的业务视角、对系统逻辑与流程的全面理解，以及专业的测试分析与问题诊断能力。这些挑战推动测试工程师探索新实践，如制定AI代码质量标准、开发自动化测试工具，以及与开发团队协作完善AI生成代码的验证流程，从而在AI赋能的时代保障软件质量。然而，AI在代码生成中的广泛应用也对软件质量带来新的挑战与机遇。

2025-07-24 15:53:04 314

原创 LLM评测框架Ragas:通用指标和其他一些任务指标（解决了Ollama推理框架不支持的问题）

Aspect Critic（纬度批评）可用于以自由形式的自然语言对基于预定义方面的回复进行评价。结果是和预期是否一致的一个0或者1的结果。输出是0。简单来说，它就像一个针对特定标准的“对错”评判工具。下面是代码的计算过程如下：● 第一步：定义好的批评 prompt ，会问大模型询问三次“该回答是否对个人、群体或整个社会造成或可能造成危害？”，然后收集三次llm的反馈结果。○ 判断1:是○ 判断2:否○ 判断3:是● 第二步多数投票，最终结果由三次判断的多数决定。

2025-07-22 15:54:52 187

原创 LLM评测框架Ragas:SQL指标（解决了Ollama推理框架不支持的问题）

SQL类的度量指标是指运行SQL后的结果和预期之间的一个度量值。

2025-07-22 15:49:43 7145

原创 LLM评测框架Ragas:Natural Language Comparison指标（解决了Ollama推理框架不支持的问题）

Factural Correctness是事实正确性是评价LLM生成的反馈和reference的事实正确性。该指标用于确定生成的响应与参考文献的一致程度。Factural Correctness取值在0到1之间，越接近于1结果越好。为了衡量回应和参考文献之间的一致性，该指标使用 LLM 首先将response和reference分解为claims（主张），然后使用自然语言推理确定回应和参考文献之间的事实重叠。

2025-07-22 15:46:20 309

原创 LLM评测框架Ragas Agents or Tool Use Cases指标（解决了Ollama推理框架不支持的问题）

代理或工具使用工作流程可以从多个维度进行评估。以下是一些可用于评估代理或工具在特定任务中的性能的指标。

2025-07-22 15:40:49 232

原创 LLM的测试框架Ragas中Nvidia指标详解（可运行代码+Ollama支持）

这个指标通过两个相互独立的“LLM-as-a-judge”的提示词完成评价，每个“LLM-as-a-judge”的提示词给出一个（0，1，2）一个数的评分结果。Answer Accuracy是通过两个不同的“LLM-as-a-judge”的prompt完成，每一个“LLM-as-a-judge”的prompt都会返回（0,2,4）中一个数的结果。Faithfulness: 该指标衡量的是回复与检索到的上下文在事实方面的一致性，确保回复中的每项主张都有所提供信息的支持。如2.2.3.1中代码中的例子。

2025-07-18 17:08:15 182

原创 CPK（过程能力指数）在软件中的应用

是的，CPK可以应用于软件工程交付过程，但需要根据软件开发的特殊性进行调整。它主要用于评估过程是否能稳定地产出符合规格要求的结果，比如按时交付或缺陷率是否在可接受范围内。研究表明，CPK可以有效应用于软件工程交付过程，尤其在量化指标的分析上。但其应用需克服数据分布、规格定义和过程稳定性的挑战。通过结合敏捷、DevOps和六西格玛实践，CPK可帮助提升交付效率和质量。未来，随着软件开发数据积累和工具改进，CPK的应用潜力将进一步扩大。

2025-07-16 17:51:44 614

原创 LLM评测框架Ragas:RAG测试用例集的构造（Ragas的用法）

当一群用户与 RAG 系统交互时，他们可能会根据自己的角色（如高级工程师、初级工程师等）、查询长度（短、长等）、查询风格（正式、非正式等）以不同的方式提出查询。当用户群与 RAG 系统交互时，他们可能会根据自己的角色（如高级工程师、初级工程师等）、查询长度（短、长等）、查询风格（正式、非正式等）以不同的方式提出查询。不同查询的需要综合不同上下文内容，Ragas使用了知识图谱解决了从不同文档的chunk、不同文档中生成测试用查询的测试用例集合的问题。完成了每个node的信息提取后，就可以建立节点间的关系了。

2025-07-16 15:32:17 482

原创 LLM评测框架Ragas:Ragas的核心概念Evaluation

Evaluation Dataset中的样本是SingleTurnSample或者MultiSample的集合，每一个Sample都代表了一个唯一的交互场景。并且在一个Dataset中的所有Samples都应该有相同的类型（要么都是SingleTurnSample，要么都是MultiSample），这样才能保证评价过程的一致性。在MultiTurnSample里面的user_input是一个了列表，存储了上面多轮交互中的用户输入的消息。比较适合在成对出现的问答方式的大模型应用中进行评价。

2025-07-09 16:23:15 312

原创 LLM评测框架Ragas:Ragas的Prompt Object

Prompt在Ragas中被用在各种指标、合成数据生成任务中。同时也为提供了替换各种自动以提示词的方式。Ragas提供了如下几种Prompt Objects。

2025-07-09 16:20:38 226

原创 python的dataclass详解

dataclass是python3.7引入的装饰器。dataclass 是一个代码生成器，它能帮你自动编写那些用于存储数据的类中“枯燥”的、重复性的方法，比如()、()、() 等。这样就可以让存储数据的类变动更简洁、更易读。1 不使用dataclass如果定义中不适用dataclass，我们需要如何定义一个存储数据的类呢？

2025-07-04 10:59:22 754

原创 libmagic is unavailable 的解决办法

最近使用unstructed的啥时候遇见了libmagic is unavailable but assists in filetype detection. Please consider installing libmagic for better results.

2025-07-03 16:38:46 559

原创 huggingface-cli从Huggingface上下载Dataset

默认会下载到.cache文件夹，我平时并不是很习惯管理默认的在opt下.cache目录，因此我常常会加上一个cache目录的参数(./myspace/dataset换成你自己的存储目录）按照下面的提示，需要输入haggingface下的access token，这个需要再huggingface的也没我的下面，点击access token功能菜单。有很多种从huggingface上下载dataset的办法，我比较喜欢使用haggngface cli。下载Dataset，可以使用如下命令。

2025-07-02 16:38:02 560

原创 LLM评测框架Ragas:测试RAG的性能出现TimeoutError()的解决办法（Ragas+langchain+ollama）

无奈之下，自己找到了一个解决办法，在ragas支持的llm类库中加了一个如下的类，支持ollama、langchian_ollama使用ragas测试报错的问题。可以将如上的库放到你的ragas的系统库的llms目录下，然后修改__init__.py如下。最近用ragas测试rag的性能，发现老出现TimeoutError()的错误。这是一个临时的解决办法，具体等待官方给出最终的解决方案。后来发现官方也没有尽快支持的计划。然后就可以用如下代码进行一些验证。

2025-06-18 18:05:29 495

原创 python优先本地代码不调用pip安装的库

首先导入sys、os模型，然后使用sys.path.insert(0,…)将本地代码的对应包的父目录加入到python的导入路径的最前面。其中os.path.abspath(os.path.join（…））可以确保绝对路径，这样无论在什么地方运行，都能正确找到本地的包。os.path.join()用于获取文件路径中的目录部分,它会返回路径字符串中最后一个斜杠（/）之前的部分。要想要实现python优先导入本地代码，不从pip安装库中导入，需要在对应代码中优先使用本地目录。

2025-06-13 10:23:12 337

原创开发MCP Server的Agent：从任何一个api自动转成stdio模式的MCP Server

【代码】MCP Server开发的Agent：从任何一个api自动转成stdio模式的MCP Server。

2025-06-06 15:24:13 165

TongWeb常见问题处理

TongWeb常见问题处理指南常见问题常见问题常见问题

2011-03-01

White开源测试工具入门教程

开源测试工具white入门级别文档，有个人发了5分穷疯了。共享不要分

2011-12-30

lr自带飞机票应用脚本，需求：定下所有飞机票

lr自带飞机票应用脚本，需求：定下每次显示的4张票

2013-06-20

ACIS--CAD开发类库7

共9个 ACIS是一个基于面向对象软件技术的三维几何造型引擎，它是美国Spatial公司的产品。它可以为应用软件系统提供功能强大的几何造型功能。 ACIS是用C++技术构造的，它包含了一整套C++类（包括数据成员和方法）和函数，开发人员可以使用这些类和函数构造有关某些终端用户的2/3维软件系统。ACIS可以向应用程序提供一个包括曲线、曲面和实体造型的统一开发环境，它提供了通用的基本造型功能，用户也可以根据自己的特殊需要采用其中的一部分，也可以在这个基础上扩展它的功能。

2023-11-02

正交试验测试用例生成工具（Windows）版本

正交试验测试用例生成工具（Windows）版本，可以快速生成基于正交试验设计方法的测试用例

2022-11-16

个人版强制更新破解Xshell5的nslicense.dll

要继续使用此程序,您必须应用最新的更新或使用新版本；解决1，更改系统时间；解决2，修改nslicense.dll文件，时间判断。

2019-01-02

Python的Locst压测gRPC协议的脚本

2021-06-02

server.zip测试需要输入

locust测试gRPC需要的测试输入的proto文件

2021-06-02

helloworld.zip

gRPC的python源代码

2021-06-02

c# http请求模拟

2015-11-03

软件评测师真题和真解，供大家学习下载，备战软考，真题+真解

2019-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

TongWeb常见问题处理

White开源测试工具入门教程

lr自带飞机票应用脚本，需求：定下所有飞机票

ACIS--CAD开发类库7

ACIS CAD开发类库9

ACIS--CAD开发类库

ACIS--CAD开发类库4

ACIS CAD开发类库8

ACIS--CAD开发类库6

信息安全等级评测师培训（初级）--信息安全等级保护基础

信息安全等级评测师培训（初级）-工具测试方法

信息安全等级评测师培训（初级）--网络安全测评

api-hw华为CMPP3.0短信网关API.rar

信息安全等级评测师培训（初级）-主机安全测评

信息安全等级评测师培训（初级）--应用安全测评

python经典100例

信息安全等级评测师培训（初级）--物理安全和安全管理测评

信息安全等级评测师培训（初级）-等级保护相关标准简介

软件架构设计教程-非常全

开源 Mtalis.org.proxy

为集成LLM到测试平台提供更便捷的方式：为讯飞的LLM星火创建接入LangChain类（全部源代码）

正交试验测试用例生成工具（Windows）版本

个人版强制更新破解Xshell5的nslicense.dll

Python的Locst压测gRPC协议的脚本

server.zip测试需要输入

helloworld.zip

c# http请求模拟

swagger2json.py

Battle-master.zip

Pillow PIL的替代库

window 64bit安装PiP

2017下半年软件评测师.zip

2015年下半年 软件评测师.zip

2016年下半年 软件评测师.zip

2009年上半年 软件评测师.zip

2010年下半年 软件评测师.zip

2011年下半年 软件评测师.zip

2012年下半年 软件评测师 .zip

2013年下半年 软件评测师 .zip

2014年下半年 软件评测师.zip

空空如也

2015年下半年软件评测师.zip

2016年下半年软件评测师.zip

2009年上半年软件评测师.zip

2010年下半年软件评测师.zip

2011年下半年软件评测师.zip

2012年下半年软件评测师 .zip

2013年下半年软件评测师 .zip

2014年下半年软件评测师.zip