【试验设计简介】

试验设计是科学研究的重要工具,包括离散型、连续型和复合型设计。离散型设计关注因子的不同水平,而连续型设计处理连续变量。试验设计涉及重复原则、随机化原则和局部控制原则,以减少误差并确保结果可靠性。试验数据的统计分析包括特征数如中位数、分位数和变异系数,以及通过箱图、直方图等图形进行描述。
摘要由CSDN通过智能技术生成

1.1概述

试验设计是数理统计学的一个重要分支,是进行科学研究的重要工具。它是以数学、统计学 等为理论基础,结合专业知识和实践经验,科学合理地设计方案,以较少的试验工作量和较低的成本获取足够、可靠的有用的信息。

所谓试验,一般用于发现新的现象、新的事物、新的规律,以肯定或否定先前的调查研究结论而进行的有计划的活动,试验的实质是一种用以测定过程或系统中某些特定性能的有目的的测试。试验具有尝试和探索之意,指为了发现规律而进行探索的过程。试验的结果一定要实验

一个好的试验设计应包含两个方面的内容:

第一是试验方案的设计。 设计试验方案首先需要明确试验指标,其次,确定影响试验指标的可能因子,然后根据实际问题,选择适合的试验设计方法。

第二是科学地统计分析试验结果。 包括对数据的直观分析、对离散型因子的方差分析、对连续型因子的回归分析。当通常的检验方法不能对某些试验或调查资料进行有效分析时,常使用非参数检验的方法对试验数据进行统计分析。

1.2试验设计的类型与基本概念

试验设计的类型分为三大类:离散型设计、连续性设计、复合型设计
离散性设计: 是将因子划分为若干个水平,然后根据不同水平下的试验结果进行比较从而选出最优者。

连续性设计: 很多情形之下,试验者不知道如何划分因子的水平,即各个因子应该划分为多少个水平,各个水平分别取什么值都难以确定,这时,就需要将各个因子视为一个连续的范围内的变量。此时的设计就称之为连续型设计。

复合型设计: 在一些实际问题中,影响试验指标的因子中既有定性因子,也有定量因子。对于定量因子,仍然称为变量,对于定性因子,我们称之为过程变量

1.2.1离散型设计涉及到的基本术语

试验指标: 在试验设计中把判断试验结果好坏所采用的标准称为试验指标,简称指标。常见的试验指标有两类:定量指标与定性指标。若试验的测量结果是连续区间内的取值,这类指标称为定量指标;用等级、类别等量表示的指标称为定性指标。在一个实际问题中,如果仅考察一个指标称为单指标问题,若考虑两个或更多个指标称为多指标问题。

因子(因素): 有可能影响试验结果的条件称为因素或因子。因子常用大写字母A,B,C,……来表示。

水平: 能影响试验指标的因子通常可以人为地加以控制或分组,所划分的组通常也叫做因子的类别和等级,统计上称其为因子的水平。

处理: 试验中各试验因子的水平所形成的一种具体组合方式,称为试验处理

试验误差: 在试验中存在两类误差:系统误差和随机误差。系统误差来源于:仪器误差、理论误差、操作误差以及试剂误差。随机误差:试验会受到一些不可控因子的影响,这些因子的综合作用称为随机误差。一般地,我们假设随机误差服从正态分布 N ( 0 , σ 2 ) N(0,\sigma ^{2}) N(0,σ2)

全面试验: 在试验安排中,每个因子在研究的范围内选几个水平,就好比在试验范围内打上网络。如果在网络上的每个点都做实验,就是全面试验。

部分实施: 全面比较法对各因子与试验指标之间的关系分析的比较清楚,但是试验次数太多,费时费力。所以可以考虑在所有的处理中选择一些“代表性”强的处理进行试验。

重复: 在试验中,将一个处理实施两次或两次以上,称为处理有重复,一个处理实施的试验次数称为处理的重复数。重复的主要作用是减少试验误差的干扰,更精确地估计处理效应。

1.2.2连续型设计涉及到的基本术语

变量: 离散型设计中,因子取若干水平或类别,我们称其为定性因子,如果因子取值可以在某一区间内连续变化时,我们称之为定量因子,它是一个连续型变量,简称为变量,常用 x 1 、 x 2 ⋯ x_{1} 、x_{2} \cdots x1x2 来表示 。

响应: 当变量取不同值时,试验指标往往不是一个固定的值,为了揭示试验指标与各个变量之间的变化规律,一般认为试验指标与各变量之间存在某种近似的函数关系,那么试验因子可视为函数的自变量,即变量。而试验指标视为函数的因变量,称为响应变量,或简称响应,通常用y来表示。

试验域: 变量取值的范围称为试验域,对于单变量试验,试验域就是一个区间。对于多变量试验,试验域是一个超立方体。

响应函数: m m m 维维试验域为 χ \chi χ ,对于任意的 ( x 1 , x 2 , ⋯   , x m ) T = χ (x_{1},x_{2} ,\cdots,x_{m})^T=\chi (x1,x2,,xm)T=χ 。如果响应变量与各变量 . x 1 , x 2 , ⋯   , x m . x_{1},x_{2} ,\cdots,x_{m} .x1,x2,,xm 之间存在某种近似的函数关系,我们将这种关系表示为函数的形式 y = φ ( x ) + ε y=\varphi (x)+\varepsilon y=φ(x)+ε ,其中 φ ( x ) \varphi (x) φ(x)是关于试验点 x x x的函数,称为响应函数, ε \varepsilon ε表示随机误差,通常假设 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma ^{2}) εN(0,σ2)

设计空间:
在这里插入图片描述
在这里插入图片描述

1.2.3试验设计的基本原则

试验设计的基本原则有:重复原则,随机化原则,局部控制原则。

重复原则: 重复是指在试验中每种处理至少实施两次。重复试验是减少随机误差的基本手段。由于随机误差是客观存在且不可避免的,如果一个处理只实施一次,那么只能得到一个观测值,只有在同一条件下重复试验,获得两个或两个以上的观测值时,才能更好的估计模型中的参数。随机误差有大有小,时正时负,随着试验次数的增加,正负相互抵消,随机误差平均趋于0,因此,多次重复试验的平均值的随机误差比单次试验值的随机误差小。

随机化原则: 就是在试验中,每一个组合处理及其每一个重复都有同等机会被安排在某一特定空间中,以消除某些组合处理或重复可能占有的“优势”或“劣势”,保证试验条件在空间和时间上的均匀性。

局部控制原则: 在试验中,当试验环境或试验单元差异较大时,仅根据重复和随机化两原则进行设计不能将试验环境或试验单元差异所引起的变异从试验误差中分离出来,因而试验误差大,试验的精确性与检验的灵敏性低。为了解决这一问题,在实验环境或试验单元差异大的情况下,可将整个试验环境或试验单元分成若干个小环境或小组。使小环境或小组内非试验因子尽量一致。这就是局部控制。其中每个比较一致的小环境或小卒,称为单位组。(或区组)

1.3试验数据的整理与显示

要做好一项试验,一方面要合理地设计试验方案;另一方面是对试验结果进行统计分析。

1.3.1 数据的特征数

总平均与组内平均:
​​​在这里插入图片描述
中位数与分位数: 当n个试验结果由小到大依次排列,位于中间的那个观测值,称为中位数。中位数描述数据中心位置的数字特征,比中位数大或小的数据个数为整个数据的一半;中位数的又一显著特点是不受异常值的影响,具有稳健性,因此它是数据分析中相当重要的统计量。

分位数是中位数的推广,将数据按从小到大排列后,对于常数 0 < P < 1 0<P<1 0<P<1 ,当 n p np np 不是整数时,它的 p p p 分位数定义为: M p = y [ n p ] + 1 M_{p}=y_{[np]}+1 Mp=y[np]+1 n p np np是整数时,它的 p p p 分位数定义为: M p = 1 2 ( y [ n p ] + y [ n p + 1 ] ) M_{p}=\frac{1}{2}(y_{[np]}+y_{[np+1]}) Mp=21(y[np]+y[np+1])


众数: 数据中出现次数最多的那个观测值称为众数,记为M。

极差: 把试验数据 y 11 , ⋯   , y 1 n 1 , ⋯   , y k 1 , ⋯   , y k n k y_{11},\cdots,y_{1n_{1}},\cdots,y_{k1},\cdots,y_{kn_{k}} y11,,y1n1,,yk1,,yknk 按从小到大排列为: y ( 1 ) , y ( 2 ) , ⋯   , y ( n ) y_{(1)},y_{(2)},\cdots,y_{(n)} y(1),y(2),,y(n),极差是试验数据中的最大值与最小值之差,即 y N − y 1 y_{N}-y_{1} yNy1。定义半极差为数据中的0.75分位数与0.25分位数之差,即 M 0.75 − M 0.25 M_{0.75}-M{0.25} M0.75M0.25

离差平方和与均方差:
在这里插入图片描述
在这里插入图片描述
变异系数: 变异系数是衡量试验结果变异程度的另一个统计量,当进行两组或多组数据变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位与平均数不同,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值来比较。标准差与平均数的比值称为变异系数,记为: C v = μ ∣ σ ∣ C_{v}=\frac{\mu }{|\sigma |} Cv=σμ
这里 μ \mu μ σ \sigma σ分别表示试验数据的标准差与平均值。

1.3.1 试验数据的统计图描述

箱图: 箱图提供了一种只用5个点对样本做简单总结的方式,这5个点包括样本的最小值(箱图的下边缘),样本1/4分位数(箱图的下四分位数),样本中位数,样本3/4分位数(箱图的上四分位数),最大值(箱图的上边缘)。箱图的样子如下所示:
在这里插入图片描述

直方图: 直方图能比较直观地看出数据的分布状态,便于判断其总体质量分布情况,使用直方图对数据进行描述。直方图是为了显示数据的分布情况,用矩形的面积表示各组频数的多少,矩形的高度为频率密度、宽度则表示各组的组距,因此其高度与宽度均有意义。

条形图: 条形图显示各组数据之间特征的必较,一般情形之下,绘制条形图时,不同组之间是有空隙的;而绘制直方图时,不同组之间是没有空隙的。

饼图: 饼图的原理很简单,在一个圆中,每一个扇形的角度与相应数据的数值大小成比例。

散点图: 散点图是统计分析中使用最广泛的图形,通常可以用于描述试验比较的结果、纵向数据的变化趋势等。

俗话说,“一图胜千言”,对试验结果的数据进行初步的分析,除了计算出其基本的数字特征,绘制统计图也能很好地展现试验数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值