《Google软件测试之道》笔记

介绍

GTAC:Google Test Automation Conference,Google测试自动化大会。

本书出版之前还有一本《微软测试之道》,值得阅读。

质量不是被测试出来的,但未经测试也不可能开发出有质量的软件。质量是开发过程的问题,而不是测试问题。开发要对质量负责,开发也是测试。

几个角色:

  • SWE:Software Engineer,软件开发工程师,开发角色,需要编写与测试代码,关注于客户(用户)使用的功能代码的实现;
  • SET:Software Engineer in Test,软件测试开发工程师,开发角色,工作重心是可测试性和通用测试基础框架,为质量服务;
  • TE:Test Engineer,测试工程师,测试角色,从用户角度做功能性测试,自动化脚本或代码的编写。

测试是独立存在的部门,测试人员在不同项目之间的借调模式。

在一个产品的基本核心功能实现之后,就立刻对外发布使用,然后从用户那里得到真实反馈,再进行迭代开发。Gmail带着beta标签在线上运营四年,早期版本并不意味着是一个不可用的烂版本。

一个产品在发布给用户使用之前,一般都要经历金丝雀版本、开发版本、测试版本、beta或正式发布版本:

  • 金丝雀版本:每日构建版本,用来排除过滤一些明显不适宜的版本;
  • 开发版本:开发人员日常使用版本,一般每周发布一个。具有一定的功能并通过一系列的测试;
  • 测试版本:通过持续测试的版本。基本上是最近一个月里的最佳版本。可被挑选作为内部尝鲜(dog food,对应地,dogfooder意思是内部试用者)版本,如果该版本有比较持续的优良表现,可作为beta测试的候选版本;
  • beta或发布版本:由非常稳定的测试版本演变而来,经历内部使用和通过所有质量考核的版本,也是对外发布的第一个版本。

测试类型:

  • 小型测试:一般都是自动化实现,用于验证一个单独函数或独立功能模块的代码是否按照预期工作。小型测试是由SWE来实现,也会有少量的SET参与,TE几乎不参与小型测试。一般需要使用mock和fake。
  • 中型测试:通常也都是自动化实现,一般会涉及两个或两个以上,甚至更多模块之间的交互。重点在于验证这些功能近邻区之间的交互,及彼此调用时的功能是否正确。
  • 大型测试:涵盖三个或以上(通常更多)的功能模块,使用真实用户场景和实际用户数据,一般可能需要消耗数个小时或更长时间才能运行完成。关注所有模块的集成,更倾向于结果驱动,验证软件是否满足最终用户的需求。三种角色的工程师都会参与到大型测试中,通过自动化测试或探索式测试的形式。

Noogler:Google的新员工。

Off-by-one error:OBOE,差一错误,在计数时由于边界条件判断失误导致结果多一或少一的错误,通常指编程中循环多一次或少一次的程序错误,逻辑错误的一种。

SET

Feature Developer:功能开发人员,思维模式是创建,重点在考虑用户、使用场景和数据流程上
Test Developer:测试开发人员,主要思路是去破坏,怎样写测试代码用以扰乱分离用户及其数据。

User Developer:用户开发人员,需要解决的主要问题是面向用户的任务,包括用例(use case)、用户故事、用户场景、探索式测试等。关心这些功能模块如何集成在一起成为一个完整的整体,主要考虑系统级别的问题,通常情况下都会从用户角度出发,验证独立模块集成在一起之后是否对最终用户产生价值。

单元测试展板:Unit Test Dashboard,

Chris/Jay持续构建工具:其他团队通过注册一台机器、填写一个配置文件和运行一个脚本,就能够运行自己的持续集成。

提交队列:Submit Queue,主要功能是保持绿色的构建,即所有测试必须全部通过。这是构建系统和VCS之间的最后一道防线。

TAP:Test Automation Program。

BugDB:Google第一个bug数据库,几张数据库表+一些查询检索功能+一些统计报表数据。

Buganizer:Google内部使用的缺陷管理系统,开源版本的Buganizer被称为问题跟踪工具,在Chromium项目中有使用。

Matrix项目:

Selenium在浏览器内部使用JS实现,而WebDriver使用浏览器本身的API集成到浏览器内部。两种方法各有优劣。Selenium可以瞬间打开一个新的Chrome浏览器,但却不能上传文件或很好地处理用户交互,基于JS实现,必须限定在JS沙箱内。WebDriver构建在浏览器里,可以突破这些限制,但打开一个新的浏览器却比较痛苦。

后来Selenium和WebDriver集成到一个项目,WebDriver成为Selenium项目的一个子集。

在Google,不同团队使用各自的Web自动化框架。Chrome使用PyAuto,Search使用Puppet(有个开源版本Web Puppeteer)​,Ads使用WebDriver。

DDD:Defect Driven Development,缺陷驱动开发。

测试命名规则

一套测试命名规则:

  • 小型测试:验证一个代码单元的功能,一般与运行环境隔离。外部服务(如文件系统、网络、数据库)必须通过模拟或虚假实现(mock and fake)。为了减少依赖,适当时候也可模拟实现被测类所在模块的内部服务。
  • 中型测试:验证两个或多个模块应用之间的交互,主要目标是验证指定模块之间的交互。
  • 大型测试:验证整个系统作为一个整体是如何工作的。

Google测试执行平台
TODO

大型测试的优点和缺点:

  • 测试最根本的:在考虑外部系统的情况下应用系统是如何工作的;
  • 对外部系统有依赖,因此是非确定性的;
  • 很宽的测试范畴意味着如果测试运行失败,寻找精准失败根源就会比较困难;
  • 准备测试数据会非常耗时;
  • 大型测试是较高层次的操作,如果想要走到特定的代码路径区域是不切实际的,而这一部分却是小型测试的专长。

中型测试的优点和缺点:

  • 不需要使用mock技术,且不受运行时刻的限制,从大型测试到小型测试的一个过渡;
  • 运行速度相对较快,可频繁运行;
  • 可在标准的开发环境中运行,开发人员也可以很容易运行它们;
  • 依赖外部系统,不确定性;
  • 运行速度没有小型测试快。

小型测试的优点和缺点:

  • 为了更容易地就被测试到,代码应清晰干净、函数规模较小且重点集中。为了方便模拟,系统之间的接口需要有良好的定义;
  • 可很快运行完毕,在代码发生变更时就可以且应该立马运行,从而较早地发现缺陷并提供及时的反馈;
  • 在所有环境下都可以可靠地运行;
  • 测试范围较小,可很容易地做边界场景与错误条件的测试,如空指针;
  • 有特定的范畴,可很容易地隔离错误;
  • 有时对子系统的模拟有难度;
  • 使用mock或fake环境,可以不与真实环境同步。

小型测试带来优秀的代码质量、良好的异常处理、优雅的错误报告;大中型测试带来整体产品质量和数据验证。单一的测试类型不能解决所有项目需求。

测试认证

Test Certified,测试认证:如果一个团队完成一系列的测试任务,这个团队会得到一个通过认证的标识。所有团队最初的级别都是0。掌握基本的优秀代码习惯,就达到级别1,然后继续通过水平考核,最终达到级别5。与能力成熟度模型一样,如CMM能力成熟度模型。

测试认证级别摘要

  • 级别1
    • 使用测试覆盖率工具
    • 使用持续集成
    • 测试分级为小型、中型、大型
    • 明确标记哪些测试是非确定性的测试
    • 创建冒烟测试集合
  • 级别2
    • 如果有测试运行结果为红色(失败)就不会做发布
    • 在每次代码提交之前都要求通过冒烟测试
    • 各种类型测试的整体增量覆盖率要大于50%
    • 小型测试的增量覆盖率要大于10%
    • 每一个功能特性至少有一个与之对应的集成测试用例
  • 级别3
    • 所有重要的代码变更都要经过测试
    • 小型测试的增量覆盖率要大于50%
    • 新增的重要功能都要经过集成测试的验证
  • 级别4
    • 在提交任何新代码之前都会自动运行冒烟测试
    • 冒烟测试必须在30分钟内运行完毕
    • 没有不确定性的测试
    • 总体测试覆盖率应该不小于40%
    • 小型测试的代码覆盖率应该不小于25%
    • 所有重要的功能都应该被集成测试验证到
  • 级别5
    • 对每一个重要的缺陷修复都要增加一个测试用例与之对应
    • 积极使用可用的代码分析工具
    • 总体测试覆盖率不低于60%
    • 小型测试的代码覆盖率应该不小于40%

TE

TE职责的一般性描述:

  • 测试计划和风险分析
  • 评审需求、设计、代码和测试
  • 探索式测试
  • 用户场景
  • 编写测试用例
  • 执行测试用例
  • 众包,crowd sourcing
  • 使用统计
  • 用户反馈

GTA:Google Test Analytics。

测试计划

测试计划应该有的特性:

  • 及时地更新
  • 描述软件的目标和卖点
  • 描述软件的结构、各种组件和功能特性的名称
  • 描述软件的功能和操作简介
  • 不必花过多的时间去撰写,必须随时可以被修改
  • 描述必测点
  • 应该能在测试中提供有用的信息,从而帮助确定进展以及覆盖率上的不足

ACC:Attribute Component Capability,即特质、组件、能力。一种测试计划的替代方法。ACC的指导原则:

  • 避免散漫的文字,推荐使用简明的列表;
  • 不必推销,其受众人群是工程师;
  • 简洁;
  • 不要把不重要的、无法执行的东西放进测试计划;
  • 渐进式的描述:Make it flow。测试计划的每个部分应该是前面部分的延伸;
  • 指导计划者的思路;
  • 最终结果应该是测试用例。

ACC通过指导计划者依次考察产品的三个维度达成这个目标:

  • 描述产品目标的形容词和副词;
  • 确定产品各部分、各特性的名词;
  • 描述产品实际做什么的动词。

能力处于特质和组件的交点。组件(component)执行某种功能(function)来满足产品的一个特质(attribute),这个活动的结果是向用户提供某种能力(capability)。

风险

确定风险的过程称为风险分析。影响风险的因素很多,试图精确地、定量地计算风险比缓解风险还要麻烦。分析风险的两个要素:失败频率(frequency offailure)和影响(impact)。

GTA中的风险发生频率有4个预定义值:

  • 罕见(rarely):发生故障的可能性很小,发生问题后恢复也很容易;
  • 少见(seldom):在少数情况下会发生故障,在使用场景复杂度不高的情况下或使用率较低的情况下,发生的可能性非常小;
  • 偶尔(occasionally):故障的情形容易想象、场景有点复杂,而该能力是比较常用的;
  • 常见(often):此能力所属的特性使用量大、复杂度高、问题频发。

估计风险影响的方法:

  • 最小(minimal):用户甚至不会注意到的问题;
  • 一些(some):可能会打扰到用户的问题。一旦发生,重试或恢复机制即可解决问题;
  • 较大(considerable):故障导致使用受阻;
  • 最大(maximal):发生的故障会永久性的损害产品的声誉,并导致用户不再使用它。

风险相关人员:开发人员、项目经理、销售人员、总监和VP。

一旦风险估计为相关人员所认同,接下来就是风险缓解(Risk Mitigation)。

风险不大可能彻底消除。就软件而言,一种极端的风险缓解办法是去掉风险最大的组件:交付的软件越少,风险越小。缓解风险的措施:

  • 围绕风险大的能力点编写用户故事,并从中确定低风险的使用场景,然后反馈到开发团队,请他们有针对性地增加约束;
  • 编写回归测试用例,以确保问题在重现时可以被捕捉到;
  • 编写和运行引发故障的测试用例,来推动开发实现恢复和回滚的特性;
  • 插入监听代码(instrumentation and watchdog code),以便更早地检测到故障
  • 插入代码监听软件,发现新旧版本间的行为变化以发现回归问题。

风险热图

在软件开发中,任何一种可以在10分钟之内完成的事情都是微不足道的,或是本来就不值得做的。

生命周期

包括测试用例和Bug的生命周期。

Test Scribe:

GTCM,Google Test Case Manager,Google测试用例管家。设计思想是简化测试用例的编写。它提供了一种灵活的标签格式,任何项目可以自行定制,这使得测试用例便于查找和复用。最重要的是,将GTCM与Google的基础设施相集成,使得测试结果得以成为头等公民。

cukes:一种行为驱动的测试用例描述

Buganizer的设计目标:

  • 更加灵活的n级组件层次,以取代BugDB简单的项目>组件>版本层次(当时所有的商业bug数据库都是如此)
  • 更好的bug跟踪审计,与分类和维护有关的新工作流
  • 更容易的跟踪一组bug以及创建、管理常用项列表
  • 登录验证,更加安全
  • 创建汇总图表和报告的支持
  • 全文搜索和变更历史
  • Bug缺省设置
  • 更好的可用性,更加直观的用户界面

WebKit使用Mozilla的Bugzilla来记录问题,chromium.org则使用Issue Tracke。

Bug的各种字段:

  • Assignee:Assigned to,被指派者
  • CC:抄送
  • Attachments:附件
  • Blocking:阻塞,该Bug修复之后才能被修复的其他Bug的IDs,以逗号分隔。更新此列表会导致所列Bug的Depends On字段被自动更新
  • Depends On:依赖,该Bug依赖的其他Bug的IDs,在其他Bug被修复之前,该Bug无法修复。更新此列表会导致所列Bug的Blocking字段被自动更新
  • Changed:变化,只读,该问题的最后修改日期和时间
  • Changelists:变更列表
  • Component:组件,必选,有此Bug或需求的实体。创建问题时,这应当是指向组件的完整路径,不限长度。不一定要给出叶子组件(没有子节点)​。只有项目和工程经理才能增加组件
  • Created:创建于,只读,Bug创建日期
  • Found In:发现于,可选,输入发现Bug时的软件版本号
  • Last Modified:最后修改,只读,该问题的任一字段被修改的最后日期
  • Notes:备注
  • Priority:优先级,必填字段,
  • Reporter:Reported by,报告者
  • Resolution:解决方案
  • Severity:严重性,必填字段,严重性和优先级没有必然联系。如在搜索页的图标中的Google错误拼写的严重程度(severity)比较低​,但优先级(priority)高​。可供参考的严重程度等级:
    • S0:系统不可用
    • S1:高
    • S2:中
    • S3:低
    • S4:对系统无影响
  • Status:状态,必填字段,维护Bug的当前状态。可选字段:New(新建)、Assigned(已指派)、Accepted(已接受)、Fix later(以后修复)、Will not fix(不修复)、Fixed(已修复,问题已经被修复,但结果尚未验证)、Verifier assigned(验证者已确定)、Verified(已验证)
  • Summary:摘要
  • Targeted To:目标,用于输入该Bug应该被修复的软件版本号
  • Type:类型,必填字段,表示问题的类型:
    • Bug:缺陷,导致程序无法按预期工作;
    • Feature Request:需求,希望加入程序的功能;
    • Customer Issue:客户问题,客户反馈的问题;
    • Internal Cleanup:内部清理,需维护的东西;
    • Process:流程,通过API自动跟踪的东西。
  • Verified In:验证于,用于输入问题修复被验证的软件版本号;
  • Verifier:验证者。验证者与被指派者可以是同一个人。

Bug的生命周期
在这里插入图片描述
Google的Bug管理与其他公司有几个关键的不同之处:

  • Bug数据库是完全开放的;
  • 所有人都提交Bug;
  • 不存在正式的自顶向下的确定Bug优先级的流程

Google Feedback:全公司范围的提交Bug的系统。

Maintenance Mode Testing

Google一向以尽早交付、经常交付、尽快失败(shipping early andoften,and failing fast)闻名于世。资源也会冲向那些最高风险的项目。

淘汰手工测试用例时,使用的指导方针:

  • 总是通过的测试,淘汰!在高优先级的测试都来不及做的时候,低优先级的测试,淘汰!
  • 确保正确理解即将被淘汰的测试用例。从即将淘汰的领域里,挑选几个有代表性的测试。如果可能就与原作者聊一聊,理解其意图,避免失误。
  • 把释放出来的时间用于测试自动化、高优先级的测试或探索式测试。
  • 抛弃之前发生过误报或行为反常的自动化测试。

进入维护模式前的考虑点:

  • 撤离之前,把困难的问题解决掉,而不是轻易放过。
  • 即使一个小型的、负责端到端测试的自动化测试集,也会以近乎为零的成本提供长期的质量保证。如果没有,一定要建立一个这样的自动化测试集。
  • 留下一份how-to文档,以便公司的任何人都可以运行你的测试集,这也会减少你在将来繁忙时还被突然打扰的可能性。
  • 确保有一个问题解决通道(escalation path),愿意承担一些责任。
  • 时刻准备着返回到你曾经工作的项目里帮忙,这对产品、团队和用户都有益。

QualityBot

利用像素级DOM分析,针对Web页面在Chrome不同发布版本间的比较工具。

BITE

Browser Integrated Testing Environment,浏览器集成测试环境,一款开源的Chrome扩展插件。目标是把尽可能多的测试活动、测试工具和测试数据集中到浏览器和云里,并在上下文中呈现相关信息,从而减少分散操作的麻烦,使得测试工作更高效。

资源越少,目标越明了(scarcity brings clarity)。

RPF:Record and Playback Framework,基于JS的纯Web解决方案,将测试用例脚本保存在云端。RPF甚至可在不支持Selenium和WebDriver测试用例执行的Chrome OS上运行。核心设计理念,是旨在避免查看应用的DOM和在发生变化时重新计算元素的XPaths的痛苦。

RPF还可用于支持BITE中的Bug提交场景。

GTA

一个方便数据输入和风险可视化的Web应用。GTA的UI设计结合ACC的最佳实践。通过统一数据格式,经理和总监们可在一个视图中看到各种产品的风险,易于定位高风险领域并分配资源。

零成本测试流程

端到端的测试流程
在这里插入图片描述
测试流程的要点:

  • 通过GTA进行测试计划:基于风险的、快速的、可自动更新的;
  • 测试覆盖度:每当一个产品部署新版本,bot就会连续抓取网站、索引内容、扫描差异。bot可能不会区分回归和新特性,但它们可以发现所有变化并交给人工去做筛选。
  • Bug评审:当产品的差别被发现时,它们会被自动的转给人工去做快速判断。是回归还是新特性?在进行差别检查时,BITE可以提供现有的Bug和丰富的测试上下文信息;
  • 探索式测试:频繁的探索式测试由外包测试人员和早期用户执行。这会捕捉到与配置、上下文相关的Bug,以及其他各种各样难以发现和报告的Bug;
  • Bug提交:只需点击几次鼠标就可提交Bug,大量相关数据被自动附上,包括问题的精确位置、截屏和调试信息
  • Bug triage和调试:开发或测试经理能看到近乎实时的Bug趋势图、需要用来分析失败原因的丰富的Bug数据,甚至是Bug发现过程的一键重放;
  • 部署新的版本并回到第一步,重复上述步骤。

外部供应商

TEM

Test Engineering Manager,TEM,测试工程经理。

几个建议:了解你的产品、知人善用。

Gmail整合很多Google的产品,如Buzz、Docs、Calendar等

第一,因为它能够提高产品的质量;第二,因为它能提高工程师开发产品的效率。其他答案都没这些重要。

改进

让每个工程师都注重质量。

测试并不能保证质量。质量是内建的,而不是外加的。

几个致命缺陷:

  • 测试变成开发的拐杖:保证质量应是开发者的任务;
  • 开发和测试的组织结构分离:软件开发的最终目的是完成一个产品;
  • 测试人员往往崇拜测试产物(test artifact)胜过软件本身:测试的价值是在于测试的动作,而不是测试产物;
  • 产品经过最严格的测试发布后,必然还存在问题。

SET的角色越来越像开发,而TE的角色向着相反的方向越来越像用户。

TODO

通过互联网交付软件,意味着有能力选择部分用户进行发布,响应这部分用户的反馈,并迅速进行更新。开发者和最终用户之间沟通合作的障碍不复存在。Bug的寿命从几个月变成几分钟。快速地进行构建、交付(给内部试用者、可信赖的测试者、早期或真实用户)​、修改、重新迭代交付,让很多用户根本来不及发现缺陷。这是一种更好的软件交付和用户反馈机制。

测试工程会转型成测试设计。少量的测试设计师快速地规划出测试范围、风险热图和应用程序的漫游路线。

随着敏捷开发、持续构建、早期用户介入、众包测试、在线软件交付的不断兴起,软件开发的问题也已经彻底改变。继续死守已存在数十年之久的测试教条无异于刻舟求剑。

Chrome OS测试计划

测试主题

风险分析

每次构建版本的基线测试

LKG每日测试

LKG:Last Known Good,最新可测试版本。LKG的每日测试:

  • 一系列功能验收测试的手工执行(可以限定每天在一种类型的硬件环境中执行)​
  • 功能回归测试自动执行
  • 在每日构建版本上,滚动式地持续执行Web应用程序的测试(包括自动和手工测试)​
  • 滚动式执行压力测试、可靠性测试、稳定性测试等。在每日构建版本上反复执行这些测试,直到没有新问题出现,然后转为每周执行
  • 持续地进行手工探索式测试和漫游式测试

发布版本测试

包括如下测试:

  • 站点兼容性:Chrome浏览器测试团队负责对前100名站点(Top100)在Chrome OS上进行验证;
  • 场景验证:对Chrome OS对外展示或者向合作伙伴发布的示例性场景(可能最多有两到三个示例)进行验证;
  • P0 bug验证:验证所有已被修正的优先级为P0的bug。验证80%的自上次发布版本以来记录的优先级为P1的bug;
  • 全面压力和稳定性测试:执行一次压力和稳定性测试;
  • Chrome OS手工测试用例:执行所有的Chrome OS手工测试用例(可以分派给不同的测试人员和不同的硬件环境)​。

其他

手工测试与自动化测试:

开发和测试的质量关注点:

发布通道:

用户输入:

测试用例库:

测试仪表盘:

虚拟化:

性能:测试团队的目标是辅助性能指标测量的执行、报告和趋势总结,而不是直接开发性能测试。

压力、长时运行和稳定性测试:Long Running测试;通过底层平台进行故障注入。

Autotest:测试执行框架,

OEM厂商:测试和开发团队共同努力为OEM厂商发布相关的手册和自动化测试用例,OEM厂商负责检测构建版本和硬件的质量。

硬件实验田:这些实验田机器主要通过HIVE架构来管理。疑问:这个HIVE不是大数据那个Hive,网络上没有搜到相关的资源。

端到端测试自动化集群:

测试浏览器的应用管理器:

浏览器的可测试性:

硬件:

时间线:

主要的测试驱动力:

相关文档:

Chrome漫游测试

Chrome漫游测试包括:

  • 购物漫游
  • 学生漫游
  • 国际长途电话漫游
  • 地标漫游
  • 通宵漫游
  • 公务漫游
  • 危险地带漫游
  • 个性化漫游

O3D:参考wikipedia

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

johnny233

晚饭能不能加鸡腿就靠你了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值