
最近有同事询问Plackett–Burman design是啥意思,我不好意思说不知道,假笑片刻就说试验设计博大精深,我用的一般是正交试验跟响应面,PB设计可能是其中某种的简化,反正到头来都是方差分析云云给糊弄过去了。回过头来自然就是一通查资料挖坟,然后就挖到了《Statistics for experimenters》这本奇书。作者是 George E. P. Box,Fisher的女婿,而且下面这句就出自这本书的第二版:

试验设计一般是面向高年级本科生与研究生开的课程,但讲的都比较抽象。什么随机化、均匀性什么的道理都明白,但真到科研里面基本还是要依赖查表与软件分析。也正是因为如此很多人都是照葫芦画瓢来做,软件告诉哪个好就用哪个,在这种情况下软件实际充当了水晶球,你信就是了。
《Statistics for experimenters》的第一章是值得所有试验学科人读一下的,因为George Box 在第一章里没有扯什么随机化、均匀性,而是聊了下认识论。开篇第一句就是“知识就是力量”,解决问题实际就是一个认识模型演进的过程。具体来说是一个归纳-演绎不断往复的过程,数据起了中介作用。例如下面这个认识过程:
(模型)每天都一样
(演绎)今天车会停在原位
(数据)车不在
(归纳)有人偷车
(模型)车丢了
(演绎)车不在原位
(数据)车又回来了
(归纳)有人偷了车还回来了
不得不说我还是头一回发现认知过程可以这样描述的,具体到试验,这个过程就成了(模型)想法 ->(演绎)实验设计 ->(数据)结果分析 ->(归纳)结论或新想法。这大概是试验设计能上升到的最高理论高度了。
好了,不扯了,这本书非常适合读,但并不适合练。因为作者虽然用了很多很直观的解释方法让读者明白原理,但并未涉及软件层面。当然,提供代码也是最近才开始在技术书籍中流行的,这本书描绘了一个清晰的试验设计与分析框架,而我下面说的是结合R的一些从问题视角的实战。
现实生活中需要试验设计的场景一般都是多因素多水平寻优问题,翻译成人话就是
y=f(x)中,y代表了你期望最优的东西,x代表了会对y产生影响的自变量,如果你的问题可以抽象成 y=f(x),那就可以通过构建模型来解决。试验设计主要关心的是方差分析这个视角,简单说就是y