【试验设计简介】

迪迪酱紫

于 2023-04-02 20:01:56 发布

阅读量1.8k

点赞数 6

文章标签：其他

本文链接：https://blog.csdn.net/m0_63281440/article/details/129906872

版权

试验设计是科学研究的重要工具，包括离散型、连续型和复合型设计。离散型设计关注因子的不同水平，而连续型设计处理连续变量。试验设计涉及重复原则、随机化原则和局部控制原则，以减少误差并确保结果可靠性。试验数据的统计分析包括特征数如中位数、分位数和变异系数，以及通过箱图、直方图等图形进行描述。

摘要由CSDN通过智能技术生成

文章目录

1.1概述
1.2试验设计的类型与基本概念
1.3试验数据的整理与显示
- 1.3.1 数据的特征数
- 1.3.1 试验数据的统计图描述

1.1概述

试验设计是数理统计学的一个重要分支，是进行科学研究的重要工具。它是以数学、统计学 等为理论基础，结合专业知识和实践经验，科学合理地设计方案，以较少的试验工作量和较低的成本获取足够、可靠的有用的信息。

所谓试验，一般用于发现新的现象、新的事物、新的规律，以肯定或否定先前的调查研究结论而进行的有计划的活动，试验的实质是一种用以测定过程或系统中某些特定性能的有目的的测试。试验具有尝试和探索之意，指为了发现规律而进行探索的过程。试验的结果一定要实验。

一个好的试验设计应包含两个方面的内容:

第一是试验方案的设计。 设计试验方案首先需要明确试验指标，其次，确定影响试验指标的可能因子，然后根据实际问题，选择适合的试验设计方法。

第二是科学地统计分析试验结果。 包括对数据的直观分析、对离散型因子的方差分析、对连续型因子的回归分析。当通常的检验方法不能对某些试验或调查资料进行有效分析时，常使用非参数检验的方法对试验数据进行统计分析。

1.2试验设计的类型与基本概念

试验设计的类型分为三大类：离散型设计、连续性设计、复合型设计
离散性设计： 是将因子划分为若干个水平，然后根据不同水平下的试验结果进行比较从而选出最优者。

连续性设计： 很多情形之下，试验者不知道如何划分因子的水平，即各个因子应该划分为多少个水平，各个水平分别取什么值都难以确定，这时，就需要将各个因子视为一个连续的范围内的变量。此时的设计就称之为连续型设计。

复合型设计： 在一些实际问题中，影响试验指标的因子中既有定性因子，也有定量因子。对于定量因子，仍然称为变量，对于定性因子，我们称之为过程变量。

1.2.1离散型设计涉及到的基本术语

试验指标： 在试验设计中把判断试验结果好坏所采用的标准称为试验指标，简称指标。常见的试验指标有两类：定量指标与定性指标。若试验的测量结果是连续区间内的取值，这类指标称为定量指标；用等级、类别等量表示的指标称为定性指标。在一个实际问题中，如果仅考察一个指标称为单指标问题，若考虑两个或更多个指标称为多指标问题。

因子（因素）： 有可能影响试验结果的条件称为因素或因子。因子常用大写字母A,B,C，……来表示。

水平： 能影响试验指标的因子通常可以人为地加以控制或分组，所划分的组通常也叫做因子的类别和等级，统计上称其为因子的水平。

处理： 试验中各试验因子的水平所形成的一种具体组合方式，称为试验处理

试验误差： 在试验中存在两类误差：系统误差和随机误差。系统误差来源于：仪器误差、理论误差、操作误差以及试剂误差。随机误差:试验会受到一些不可控因子的影响，这些因子的综合作用称为随机误差。一般地，我们假设随机误差服从正态分布 $N(0,\sigma ^{2})$ 。

全面试验： 在试验安排中，每个因子在研究的范围内选几个水平，就好比在试验范围内打上网络。如果在网络上的每个点都做实验，就是全面试验。

部分实施： 全面比较法对各因子与试验指标之间的关系分析的比较清楚，但是试验次数太多，费时费力。所以可以考虑在所有的处理中选择一些“代表性”强的处理进行试验。

重复： 在试验中，将一个处理实施两次或两次以上，称为处理有重复，一个处理实施的试验次数称为处理的重复数。重复的主要作用是减少试验误差的干扰，更精确地估计处理效应。

1.2.2连续型设计涉及到的基本术语

变量： 离散型设计中，因子取若干水平或类别，我们称其为定性因子，如果因子取值可以在某一区间内连续变化时，我们称之为定量因子，它是一个连续型变量，简称为变量，常用 $x_{1} 、x_{2} \cdots$ 来表示。

响应： 当变量取不同值时，试验指标往往不是一个固定的值，为了揭示试验指标与各个变量之间的变化规律，一般认为试验指标与各变量之间存在某种近似的函数关系，那么试验因子可视为函数的自变量，即变量。而试验指标视为函数的因变量，称为响应变量，或简称响应，通常用y来表示。

试验域： 变量取值的范围称为试验域，对于单变量试验，试验域就是一个区间。对于多变量试验，试验域是一个超立方体。

响应函数： $m$ 维维试验域为 $\chi$ ，对于任意的 $(x_{1},x_{2} ,\cdots,x_{m})^T=\chi$ 。如果响应变量与各变量 $x_{1},x_{2} ,\cdots,x_{m}$ 之间存在某种近似的函数关系，我们将这种关系表示为函数的形式 $y=\varphi (x)+\varepsilon$ ,其中 $\varphi (x)$ 是关于试验点 $x$ 的函数，称为响应函数， $\varepsilon$ 表示随机误差，通常假设 $\varepsilon \sim N(0,\sigma ^{2})$ 。

设计空间：
在这里插入图片描述

1.2.3试验设计的基本原则

试验设计的基本原则有：重复原则，随机化原则，局部控制原则。

重复原则： 重复是指在试验中每种处理至少实施两次。重复试验是减少随机误差的基本手段。由于随机误差是客观存在且不可避免的，如果一个处理只实施一次，那么只能得到一个观测值，只有在同一条件下重复试验，获得两个或两个以上的观测值时，才能更好的估计模型中的参数。随机误差有大有小，时正时负，随着试验次数的增加，正负相互抵消，随机误差平均趋于0，因此，多次重复试验的平均值的随机误差比单次试验值的随机误差小。

随机化原则： 就是在试验中，每一个组合处理及其每一个重复都有同等机会被安排在某一特定空间中，以消除某些组合处理或重复可能占有的“优势”或“劣势”，保证试验条件在空间和时间上的均匀性。

局部控制原则： 在试验中，当试验环境或试验单元差异较大时，仅根据重复和随机化两原则进行设计不能将试验环境或试验单元差异所引起的变异从试验误差中分离出来，因而试验误差大，试验的精确性与检验的灵敏性低。为了解决这一问题，在实验环境或试验单元差异大的情况下，可将整个试验环境或试验单元分成若干个小环境或小组。使小环境或小组内非试验因子尽量一致。这就是局部控制。其中每个比较一致的小环境或小卒，称为单位组。（或区组）

1.3试验数据的整理与显示

要做好一项试验，一方面要合理地设计试验方案；另一方面是对试验结果进行统计分析。

1.3.1 数据的特征数

总平均与组内平均：
在这里插入图片描述
中位数与分位数： 当n个试验结果由小到大依次排列，位于中间的那个观测值，称为中位数。中位数描述数据中心位置的数字特征，比中位数大或小的数据个数为整个数据的一半；中位数的又一显著特点是不受异常值的影响，具有稳健性，因此它是数据分析中相当重要的统计量。

分位数是中位数的推广，将数据按从小到大排列后，对于常数 $0 < P < 1$ ,当 $n p$ 不是整数时，它的 $p$ 分位数定义为： $M_{p}=y_{[np]}+1$ 当 $n p$ 是整数时，它的 $p$ 分位数定义为： $M_{p}=\frac{1}{2}(y_{[np]}+y_{[np+1]})$ 。

众数： 数据中出现次数最多的那个观测值称为众数，记为M。

极差： 把试验数据 $y_{11},\cdots,y_{1n_{1}},\cdots,y_{k1},\cdots,y_{kn_{k}}$ 按从小到大排列为： $y_{(1)},y_{(2)},\cdots,y_{(n)}$ ,极差是试验数据中的最大值与最小值之差，即 $y_{N}-y_{1}$ 。定义半极差为数据中的0.75分位数与0.25分位数之差，即 $M_{0.75}-M{0.25}$ 。

离差平方和与均方差：
在这里插入图片描述

变异系数： 变异系数是衡量试验结果变异程度的另一个统计量，当进行两组或多组数据变异程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。如果单位与平均数不同，比较其变异程度就不能采用标准差，而需采用标准差与平均数的比值来比较。标准差与平均数的比值称为变异系数，记为： $C_{v}=\frac{\mu }{|\sigma |}$
这里 $\mu$ 与 $\sigma$ 分别表示试验数据的标准差与平均值。