2021-01-14

m0_38112148

于 2021-01-14 07:07:46 发布

阅读量1.8k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_38112148/article/details/112598723

版权

笔记专栏收录该内容

1 篇文章

订阅专栏

本教程介绍使用Design Expert创建单因素多水平设计。以保龄球队员选拔为例，涵盖试验方案设计、参数输入、数据保存与输入、结果分析等步骤，包括方差分析、残差分析等，还介绍了相关统计指标及模型评估方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Design expert教程单因素实验设计
Part 1 基础简介在这个教程中，我们会使用Design-Expert创建一个常用的单因素多水平设计。这种类型的设计对分类处理的简单比较非常有用，例如：谁是最好的贡献值？哪种原料应该被选择？当你改变文书处理过程的程序时会发生什么？如果你很忙，跳过那些矩形框中的东西-这些是那些想花更多的钱和探索事物的人的侧边栏！注意响应曲面法（Response Surface Method）：如果你想在一个重要的因素上进行实验，比如可以调整到任何数值水平的参数，可以考虑使用响应面方法（RSM）。这将在后面的教程中介绍。这些数据来源于Stat-Ease 保龄球队。三个保龄球手（Pat， Mark和Shari）正在竞争最后一个队里的位置。每个人按随机顺序打了6局 - 正确的试验规程。结果如下：GamePatMarkShari116016516621501801583140170145416718516151571951516148175156Mean（平均值）153.7178.3156.2Bowling Scores作为一个号的实验者，队长知道最好不要简单地选择平均得分最高的球员。考虑到每场比赛的变化性，队长需要知道平均分是否有显著差异。也许马克的分数是最高的只是侥幸。这个单因素案例研究很好地介绍了简单对比实验设计（DOE）的威力。它使用了Design Expert 软件中的许多方便的特性。！注意其他资源：我们不会解释当前练习中显示的所有特性，因为大多数特性将在后面的教程中介绍。许多其他功能和输出在“帮助”系统中有详细说明，您可以通过单击主菜单中的“帮助”来访问该系统，或在大多数地方通过右键单击或按F1键（上下文感知）来访问该系统。设计试验方案双击Design-Expert 图标开始程序单击File菜单，选择New Design…，或者在工具栏中点击新建图标。现在你可以在你屏幕左边的树状结构中看到设计选项。析因设计（Factorial category）是默认选项，这个教程我们选择多因素多水平设计（Multilevel Categoric）Multilevel Categoric Design 多因素多水平设计文本翻译（也被称为“完全析因设计”，这是一个1到12个因素的设计，其中每个因素可能有不同数量的水平。因素被视为分类因素。Categoric factors（因素数）1-12Horizontal 水平排列Vertical 垂直排列Categoric 因素，Name 名称，Units单位，Type类型，Nominal(变量） Ordinal（序数）Levels 水平数，L1（水平1），L2（水平2）…!注意难以改变的因素：如果你的任何一个因素很难控制，也就是说不容易运行在随机水平，可以考虑使用Split-Plot Multilevel Categoric Design（裂区多因素多水平试验设计）然而，限制随机化会对你的实验产生很大的影响，你最好让所有的因素随着条件的变化而变化。（默认情况下Design-Expert将在你的设计中按随机排列你的执行顺序。）输入设计参数将因子数保留为其默认级别1。输入Bowler作为因子的名称。选项卡，然后输入Person。将Type保留为默认的Nominal。将“级别”字段设置为3。输入Pat、Mark和Shari作为级别1-3的名称。!注意屏幕提示：有关“因子类型”选项的详细信息，请单击工具栏来访问我们的上下文感应屏幕提示。在重复次数(Replicates）字段中输入6（每个选手投6次）。保持“Assign one block per replicate"(每个重复设置一个block区）为非选中状态。Design-Expert 现在会将试验次数复制为18个。按下一步。让我们先从简单的入手。将响应数保留为默认值1。现在单击名称框并输入Score。选项卡，然后输入Pins（分值）。翻译：每个响应，您可以输入一个可检测到的具有统计意义的最小变化Delta，以及每个响应的估计标准偏差Sigma（通常从历史数据中获得）。然后在Delta/Sigma字段中计算比率。点击Continue可查看每个响应的计算因子。建议概率为80%或更高。如果因子不足，请考虑通过增加重复次数，更大的设计或复制来添加试验次数。在此阶段，您可以跳过其余字段并继续。然而，最好还是评估一下你实验设计的因子。在本例中，如字段中所示在下面，输入信号值20，因为保龄球队长不关心是否平均相差不到20分。然后输入标准偏差的值10（源自联盟记录为典型保龄球运动员的可变性）。然后Design计算信噪比为2（20除以10）。按下一步来看一下让人满意的结果 - Power有超过80%的概率看到所需差异。power 计算结果翻译：报告的Power在5.0% alpha水平上可以检测指定的信噪比，推荐power最少为80%点击完成创建一个设计并进入设计展示窗口。！注意浏览程序的界面：在继续进行前，我们看一下Design-Expert 为试验设计，分析和结果优化提供的独特的分支界面您将在本系列教程中探索一些分支，如果您继续学习更高级的功能，例如process optimization的响应面方法，则还将探索其他分支。保存设计当你完成设计的设置后，通过选择file，save as 来保存成一个文件，输入文件名（这个教程，我们建议叫Bowling），文件会被保存为*.dxpx 格式输入响应数据（input data）当你自己做实验时，你需要出去收集数据。这是通过退出程序来实现模拟。如果提示保存，请单击“是”。现在重新打开Design Expert，然后单击“打开设计”（或单击工具栏上的“打开文件”图标）打开以前保存的数据文件(保龄球.dxpx). 您现在看到的数据应该是随机布局的。对于本例，必须按正确的顺序输入数据以匹配正确的投球手。为此，右键单击Factor 1（A:Bowler）列标题并选择按升序排列。！注意快速排序：你可以双击列头来完成快速排序。现在输入前表中的响应值，或者这张表中的数据。除了运行顺序有区别外，你的design窗口应该如下所示。输入响应数据的实验设计布局当你进行自己的实验时，一定要按随机顺序运行并输入响应。标准顺序只能用于方便输入已有的设计数据。！注意保证实际运行顺序准确的好处：假如你是一个真正的stickler，用上面显示的run number替换你的run number（执行号），这样就保留了实际投手的比赛顺序。打6场保龄球是很累的，但对任何一个认真的保龄球选手来说都是可控的。然而，在打保龄球的6场比赛中，短暂和随机的休息都是可以防止“me-related”影响，比如学习曲线（随着你的进步而变好）和/或疲劳（ring over me）保存你的数据通过选择文件，从菜单中选择save，现在你备份了你的数据以防丢失。这个备份很好，因为现在我们将在它的设计布局中演示许多有益的过程和Design Expert特性。例如，在表的顶部单元格上单击鼠标右键。这允许您控制DesignExpert显示的内容。对于本练习，请选择“注释”。和Design-Expert 10 相比，11 增加了一些新的字段，例如comments在上面的评论栏中，我们添加了一个注释，说明保龄球馆老板在8号跑道的尾部重新上油，这是值得的。从帕特的得分来看，这种影响显然微不足道。！注意调整列的大小：如果您喜欢，可以试试这个。如果注释超出了允许的空间，请将光标移到列标题的右边框，它将变成一个双头箭头。然后，只需双击自动调整列大小。现在，为了更好的掌握保龄球结果，通过右键单击（或双击）response1列标题并选择Sort Ascending，将它们从低到高排序，如下所示。你会发现排序是非常有用的一个特性，它对因素和响应都有效。在这个例子中，你很快就会看到马克投球几乎所有最高的比赛。结果分析现在我们开始数据分析。在程序的分析分支下（屏幕左侧），单击得分节点。以Transform开头的选项卡出现在designexpert的主窗口中的一个渐进式工具栏上。您将从左到右单击这些选项卡并执行完整的分析。这是一个非常简单的过程。“转换(Transform)”页面提供了为响应选择转换(Transform)的机会。这可能会改善分析的统计特性。Transformation tab - the starting point for the statistical analysis！注意Details on transformations: If you need some background on transformations, first try Tips. For complete details, go to the Help command on the main menu. Click the Search tab and enter “transformations.”变换的细节：如果你需要一些变化的背景知识，可以尝试点击一下。如想了解完整的细节，在帮助菜单中，点击查询并输入“变换”This dataset does not require a transform, so press ahead with the default of None by clicking the Effects tab.此数据集不需要变换，因此使用默认选项即可。点击Effects标签页查看分析结果必然，教程现在变得有点统计学了。如果这变得很吓人，我们建议你参加一个回归的基础课，或者更好的是，一个DOE的研讨会，比如statease的计算机实验设计。Design-Expert现在弹出了一个非常专业的绘图（Half-Normal Plot），它突出显示了Factor A——保龄球手作为一种主要影响因素，与绿色三角形线显示的统计误差（即正态变化）相关。Initial view of the effffect of Bowler（保龄球运动员效应初探）That is good! It supports what was obvious from the raw results—who bowls does matter.太好了。这个图支持从原始结果中看出什么是明显的-谁最重要！注意Half-normal plots: If you want to learn more about half-normal plots of effects, work through the Two-Level Factorial Tutorial.Half-normal plots（半正态图）：如果你想了解更多关于半正态图的效果，可以通过“二水平析因实验设计”教程学习。要获取统计细节，请按ANOVA（方差分析）选项卡。注意ANOVA表的最右侧，Design Expert验证结果是否显著。ANOVA results (annotated), with context-sensitive Help enabled via right-click menu(ANOVA结果（带注释），通过右键单击菜单启用上下文相关帮助)页面翻译（模型F值为12.57，表明模型具有显著性。只有0.06%的可能性，F值这么大可能会出现由于噪音。）“Prob>F”值小于0.0500表示模型项有效。”在这种情况下，A是一个重要的模型项。大于0.1000的值表示模型项不重要。如果有许多无关紧要的模型术语（不包括支持层次结构所需的术语），那么模型简化可能会改进您的模型。The F Value associated with the model. It is the ratio of the Model MS divided by the Residual MS. It is the ratio of how much variation has been explained by the model relative to how much variation is unexplained. The ratio of variances follows an F distribution and is used to calculate the p-value and test for significance.(F-value 与模型关联的F值。它是模型MS除以残差MS的比值，是模型解释了多少变化与解释不了多少变化的比值。方差比服从F分布，用于计算p值和显著性检验。)This is the probability value that is associated with the F Value for this term. It is the probability of getting an F Value of this size if the term did not have an effect on the response. In general, a term that has a probability value less than 0.05 would be considered a significant effect. A probability value greater than 0.10 is generally regarded as not significant.（p-value 这是与该项的F值相关联的概率值。如果该项对响应没有影响，则得到这种大小的F值的概率。一般来说，概率值小于0.05的项将被视为显著影响。概率值大于0.10通常被视为不显著。）！注意方差分析注释：现在选择视图，从屏幕顶部的菜单中显示注释并取消选中此操作。请注意，文本提示和解释会消失，因此您可以为精通统计的客户提供清晰的打印输出。重新选择视图，显示注释以“切换”回所有有用的提示。继续之前，请尝试右键单击p值0.0006，如上图所示（选择弹出菜单底部的“帮助”）。在程序中只需点击几下就可以获得大量的信息：好好利用！Now, look to the right side of your screen at the Fit Statistics pane to see various summary statistics.（现在，在Fit Statistics窗格的屏幕右侧查看各种摘要统计信息。）The Predicted R2 of 0.4620 is in reasonable agreement with the Adjusted R2 of 0.5766;"i.e. the difference is less than 0.2. （预测的R2为0.4620，与调整后的R2为0.5766相当，即差值小于0.2。）“Adeq Procision”（精密度）测量信噪比。比率大于4是可取的。你的“比率”为6.442表示信号充足。此模型可用于探索设计空间。R-Squared (descriptive statistics : The descriptive statistics are used as a secondary check for the usefulness of the model. 描述性统计被用作模型有用性的二次检验。Subtract the Predicted R-Squared from the Adjusted R-squared. If the difference is less than 0.2, then the model is fitting the data and can reliably be used to interpolate. 从调整后的R平方中减去预测的R平方。如果差值小于0.2，则模型拟合数据，可以可靠地用于插值。Check the Adequate Precision. If it is greater than 4, then the model has a strong enough signal to be used for optimization.检查是否有足够的精度。如果大于4，则模型有足够强的信号用于优化。CV% is used in some industries to judge the capability of a process; lower is better.（CV%在某些行业用来判断一个过程的能力，它越低越好。）Compare the standard deviation to the estimate used when sizing the design (power or FDS).将标准偏差与确定设计尺寸时使用的估计值进行比较Summary statistics（汇总统计）！注意后方差分析统计：注释揭示了你需要知道的要点，但不要羞于右键单击某个值并获取联机帮助（或尝试按F1键）。在大多数情况下，您将获得有关特定统计数据的有用建议。在拟合统计信息下方，您将找到Coefficient“系数”窗格。相关系数（Coefficient）评估表示当所有剩余因素（factors）保持不变时，响应 y 随 x 的预期变化。正交设计中的截距是所有运行的总平均响应。相关系数是基于因素设置围绕该平均值进行的调整。当因素为正交时，VIF为1，大于1表示多重共线性，VIF越高，因素间的相关性越强。一般来说，VIF小于10是可接受的。相关系数（Coefficient）这里您可以看到统计细节，例如每个模型项的系数估计及其置信区间（“CI”）。在这个简单的单因素比较实验中，截距只是三个投球手的总平均分。你可能想知道为什么只有两项，A1和A2，提供了一个预测模型对三个保龄球。最后一个模型项A3是多余的，因为一旦你知道平均数加上其他两个投球手的平均数，就可以推断出A3。现在让我们进入这个屏幕的下一节：“处理平均值”。点击方差分析窗格中的处理平均值选项卡。Treatment平均值（Treatment means）这是三个投球手的平均数。现在单击“处理平均值”选项卡，您将看到通过成对t检验进行比较的结果。Prob>|t| 值小于0.0500 表示两个 treatment 平均值有显著不同。Prob>|t|值大于0.1000 表示两个treatment 平均值没有显著不同。Treatment 对比（Treatment contrasts）从Treatment比较中可以得出以下结论：当Pat与Mark对比时（1 vs 2）差异显著（-24.67分），Pat和Shari（1对3）之间的2.5分平均差异并不显著（保龄球队队长也认为这一点不重要——回想一下在Power设计规范中，10分的差异是最不重要的）。Mark 和 Shari对比（2 Vs 3），差异明显（22.17分）残差分析（Analyze Residuals）单击Diagnostics（诊断）选项卡以显示诊断图。在“布局”工具栏中，选择“单个拆分”图标以最大化残差的法线打印。！注意理想情况下，这将是一条直线，表明没有外围异常。“铅笔测试”：如果你手边有一支铅笔（或任何笔直的东西），把它举到图表上。它是否松散地覆盖了所有的要点？在这个例子中，答案是“是”——它通过了“铅笔测试”的正常性。通过拖动细红线或其“轴心点”（中间的圆），可以重新定位细红线。但是，我们不建议您费心这样做-程序通常会自动将行放置在理想位置。如果需要重设该行，只需在图形上双击鼠标键即可。请注意，这些点按其所代表的响应级别按颜色进行编码-从最低值的冷蓝色到最高值的热红色。在这个例子中，红点是马克出色的195分的比赛。Pat和Shari认为Mark的195分比赛应该被淘汰，因为太高了。这样公平吗？单击此点，以便在Diagnostics Tool（诊断工具）上选择此和所有其他剩余图形（通过Diagnostics（诊断）选项卡上方的蓝色布局图标选择一次显示多少个图形）。Normal probability plot of residuals (195 game highlighted)残差正态概率图（195 高亮）！注意Diagnostics tool下拉列表：注意Diagnostics tool的默认值是“studentized”。它将原始残差（以原始单位报告）转换为基于标准差的无量纲数字，这些数字以加号或减号表示。更多关于学习化的细节在帮助中。通过从下面显示的诊断工具的下拉列表中选择原始残差，可以显示原始残差。显示残差的其他方法在任何情况下，当运行具有更大的杠杆作用（另一个在帮助中查找的统计术语）时，只有学生化的残差才能生成有效的诊断图。例如，如果Pat和Shari成功地把Mark的高分踢出去（别担心，他们不会的！），那么Mark剩下的五场比赛中的每一场都将表现出0.2（1/5）的杠杆率，而其他六场比赛中的每一场都是0.167（1/6）。由于这类潜在的不平衡，我们建议您始终保持Studentized特性处于选中状态（默认情况下是这样）。因此，如果您现在使用残差，请返回默认情况下出现的原始选择（外部*学生化）。designexpert在默认情况下如何显示残差的另一个方面是它们是在“外部”完成的。这在二水平析因设计教程中已经探讨过了，可以说程序选择这种形式的残差是为了提供对统计异常值更高的敏感性。这使得它更令人信服的是剔除Mark的高游戏。现在选择Resid.与Pred.选项卡查看每个单独游戏的残差图与响应模型预测的残差图。！注意一个虚构的故事：据推测，“残差”最初被统计学家称为“错误”，但管理者们对如此多的错误感到不安！让我们更容易看到哪个残差与哪个bowler匹配，方法是在诊断工具中按“color”的向下列表箭头，然后选择：bowler。残差与预测值，用bowler着色学生化残差的大小应该与其预测值无关。换句话说，对于每个保龄球运动员，学生化残差的垂直分布应该大致相同。在这种情况下，情节看起来不错。马克的游戏作为一个整体脱颖而出，不要惊慌。从下到上的排列与他的竞争对手并没有脱节，尽管他们对最高分（仍然突出显示）表示抗议。调出列表上的下一个图形–Resid. vs run（残差vs运行次数）。！警告您的图表可能因随机化而不同Residuals versus run chart（残差vs运行次数）在这里，你可能会看到由于不断变化的球道条件（例如，重新上油），保龄球手疲劳，或其他与我有关的潜伏变量的趋势。！注意可能趋势的影响：在这个例子中，事情看起来相对正常。然而，即使你看到一个明显的向上，向下，或转移的变化，它可能不会偏向结果，因为运行是完全随机的。为了防止你的实验被不可控的变量破坏，一定要随机化！更重要的是，在这种情况下，所有点都在限制范围内（以95%的置信水平计算）。换言之，Mark的高分并没有表现出更多的共同原因可变性，所以它不应该被取消资格。查看平均值和数据图选择“模型图”选项卡继续分析，并显示包含所有响应数据和每个treatment的水平（factor）的平均值的图。该图对数据和因子水平对反应平均值和扩散的影响进行了极好的概述。请注意，Design Expert以10为增量将Y轴从140分缩放到200分。中间有Mark分数的单因素效应图此效应图中的方块表示每个因素水平（bowler）的预测响应。垂直的“工字钢”条形代表每个因素的95%最小显著性差异（LSD）间隔。Mark的LSD与Pat或Shari的水平不重叠，所以至少有95%的置信度，马克的平均值明显高于其他两个投球手的平均值。模型图上的个别比较：如果单击表示平均值的LSD条中心的一个框，将以图形方式显示成对比较。通过突出显示点的预测平均值绘制一条水平线。与该水平线重叠的任何垂直条表示与所选点没有显著差异的预测平均值。图例也将以表格形式显示，这意味着两者有很大的不同。请注意，即使显示的成对测试是双面的，也只显示一半的间隔以便于解释。Pat和Shari的LSD水平重叠，所以我们不能说哪一个更好。似乎他们必须在一个保龄球小联盟呆上一年，看看一年的比赛是否显示出能力上的显著差异。同时，Mark将努力达到他在选拔赛中表现出的高平均水平，从而证明他被选为Stat Ease保龄球队是合理的。现在就这样。通过转到“文件”、“保存”（或单击图标）保存结果。如果您愿意，现在可以退出DesignExpert，或者继续打开它，继续学习下一个教程–第二部分，了解一般的单因素设计和分析。它通过进一步的保龄球冒险来深入研究高级功能。