JMP功能与算法总结

最新推荐文章于 2023-03-19 13:03:00 发布

C@1M1n9

最新推荐文章于 2023-03-19 13:03:00 发布

阅读量7.9k

点赞数 1

文章标签：算法数据分析

本文链接：https://blog.csdn.net/qq_43660490/article/details/128044161

版权

【表】

汇总

将表格中的所有的统计量进行计算，包括数目、均值、标准差、最值、极差、百分比、缺省值、类别数、综合、权重和、方差、标准误差、变异系数、中位数、绝对偏差中位数、集合均值、四分位数间距、分位数、直方图。

变异系数 当需要比较两组数据离散程度大小的时候，如果两组数据量纲不同，直接使用标准差来进行比较不合适，此时就应当消除测量尺度和量纲的影响，而变异系数是原始数据标准差与原始数据平均数的比，这样就可以进行客观比较了。
绝对偏差中位数 即绝对中位差，实际求法是用原数据减去中位数后得到的新数据的绝对值的中位数。可以用来剔除数据集中的离群点/异常点。

子集

可以根据需求取出源数据集的子集（指定选取、随机选取等）。

堆叠

它实现快速将多列合并为一列，同时新增一个标识变量，以显示不同指标，实现所需要的数据比较。

拆分

根据某因子拆分另一因子数据。

【分析】

分布

形成数据分布图，形成分位数表、汇总常见统计量。可展示正态分位数图（展示数据是否来自正态总体）、离群值箱线图、分位数箱线图、茎叶图、CDF图（累积分布图）、检验均值、检验标准差、检验等价性、置信区间、预测区间、容差区间、过程能力、连续拟合和离散拟合。
在这里插入图片描述

检验均值

均值对比的假设检验方法主要有Z检验和T检验。

t检验

主要用于样本含量较小(<30)、方差未知的情况，可用于样本均数与已知总体均数的比较、两个小样本均数的比较以及配对设计资料均数的比较。

单样本t检验

样本均数与已知总体均数的比较，即单样本t检验，已知总体均数看作理论值。检验统计量t的计算公式及自由度：

举个例子：
在这里插入图片描述
分析得到以下信息：

建立原假设 $H_0$ 和备择假设 $H_1$ ，设置显著性水平为0.05：
计算t检验统计量：

查看t界值表：

双尾检验，显著性水平为0.05，自由度为24，t=1.833<2.064，P>0.05，按0.05的显著性水平不拒绝 $H_0$ ，因此不能认为该山区成年男子的脉搏均数与一般健康成年男子的脉搏均数不同。

配对t检验

我们已经知道，为了检验不同群体的某个特征差异，可以使用独立样本t检验。然而如果遇到同一个体进行前后两次测试呢，我们是否可以把前测和后测的数据作为两个群体，使用独立样本 t 检验来检验两者的差异性呢？
答案是不可以的，因为我们研究的是同一个样本实施测试前后的差异，前测和后测由于都是在同一个样本上采集数据，必然会存在一定的相关，如果忽略这种相关性就会浪费一定的统计信息，我们必须寻找其他的统计方法检验其差异性。而这就是配对样本 t 检验。
配对样本t检验是对用于检验配对设计实验中成对定量数据是否存在差异性的统计方法。例如同一对象处理前后的数据、同一对象两个部位的数据、同一样品两种方法检验的结果、配对的两个对象分别接受进行两种处理后的数据。举个例子：
在这里插入图片描述
设治疗前后血红蛋白变化为 $\mu_d$ ，变化的均值为 $\overline{d}$ ，变化的方差 $S_d$ 为7.9617，样本数n为10。则有：

查表得到结论：

成组t检验

两独立样本t检验又称成组t检验，适用于完全随机设计的两样本均数比较。目的是为了推断两样本所来自的总体，其总体均数是否不同。要求样本来自正态总体，两样本均数比较时还要求两样本总体方差相等。例如比较正常含氧环境与低氧环境运动后的心肌血流量是否不同。例如比较15名健康人和13名Ⅲ度肺气肿病人痰中的 $\alpha_1$ 抗蛋白酶含量是否不同。

z检验

z检验要求样本量较大，或样本量小但方差已知的情况。应用与样本均数与已知总体均数的比较、两个大样本均数的比较。

单样本z检验

进行样本均数与已知总体均数的比较。
在这里插入图片描述
举个例子：

该例中已知总体标准差为1.1，因此使用z检验。

两样本z检验

适用于两样本含量均较大的情况，方法简单，但只是近似方法。

检验等价性

使用等价检验确定均值是否足够接近，从而认为是等价的，性质与t检验类似，但和t检验存在两个方面的重大区别：
举证责任落在证明等价上面
在均值的标准 t 检验中，原假设假定某个总体均值与目标值或另一个总体均值相同。因此，举证责任落在证明该均值与目标值或另一个总体均值不同上面。在等价检验中，原假设假定某个总体均值与目标值或另一个总体均值不同。因此，举证责任落在证明该均值与目标值或另一个总体均值相同上面。
用户为差值定义可接受值的范围
从功能和实用意义上来讲，产品之间存在微小差异并不总是十分重要。例如，在 200 mg 的药物剂量中，相差 1 mg 不会产生任何实际效应。当您使用等价检验时，您必须输入等价限值，以指示差值必须为多大才被认为是重要的。位于等价限值范围内的较小差值被视为不重要。如此一来，等价检验便可评估总体均值差值的实际显著性和统计显著性。
要在等价检验和标准 t 检验之间进行选择，考虑希望证明或说明的内容。如果希望证明两个均值相等或者证明均值等于目标值，而且可以确切地定义在所属领域中属于重要差值的差值大小，则使用等价检验，而不是标准 t 检验。

预测区间

预测区间关注的是单个观测，或是下一个随机选定的样本的均值和标准差。该计算假设给定样本是从正态分布中随机选定的。选择单侧或双侧预测区间。举个例子：
在这里插入图片描述
在本例中，有 95% 的把握确信以下情况：
• 下十个观测中的每一个观测都将介于 0.013755 和 0.279995 之间。
• 下十个观测的均值将介于 0.115596 和 0.178154 之间。
• 下十个观测的标准差将介于 0.023975 和 0.069276 之间。

置信区间

连续变量的置信区间选项显示均值和标准差的置信区间。“置信区间”报表显示均值和标准差参数估计值，以及置信度为 1 - α 时的置信上限和置信下限。举个例子：
在这里插入图片描述
在本例中，有90%的把握，真实数据落在该区间内。

容差区间

容差区间包含至少指定比例的总体。它是指定总体比例（而不是均值或标准差）的置信区间。举个例子：
在这里插入图片描述

在本例中，根据容差区间下限值和容差区间上限值，有 95% 的把握确信至少 90% 的总体介于 0.057035 和 0.236715 之间。

质量与过程

控制图生成器

控制图是一种用于监控过程变异并识别过程中的特殊原因变异的图形化分析工具。建立控制限可过滤掉常规变异，这有助于确定某个过程是否稳定且可预测。若某个过程中的变异超过了预期，则可以调整该过程以创造更高质量的产出，同时还可能节省成本。
以JMP自带的样本数据库中Socket Thickness.jmp为例，包含插座厚度的测量值。生产过程中的缺陷数呈上升趋势，此时想要调查原因。将厚度拖至 Y 区域，将小时拖至子组区域（位于底部）建立控制图。
在这里插入图片描述
通过查看平均图，可以发现有若干点位于下控制限 7.788772 下方。此时想要查看是否有其他变量导致了该问题，将插座孔拖入阶段区域。
【tip】设全部测试结果的平均值为X，标准偏差为S，则按统计学计算，控制限为X±3S。若所控制的质控样品的一个分析结果落在控制限之外。则表示这批分析结果失控。
在这里插入图片描述
可以看到，插座孔之间存在差异，表明每个插座孔需要单独的控制限。插座孔 1 生产的插座的平均厚度高于其他插座孔生产的插座。这表明有必要进一步调查插座孔之间的差值。所有插座孔都有位于控制限之外的点。因此，应该为每个插座孔调查过程中为何缺乏控制。

测量系统分析

通过统计分析的手段，对构成测量系统的各个影响因子进行统计变差分析和研究以得到测量系统是否准确可靠的结论。MSA（测量系统分析）解决测量阶段问题，过程行为图（或控制图）解决控制阶段问题。
以JMP自带的样本数据库中Gasket.jmp为例，在该示例中，三名操作员测量了相同的五个部件。根据在测量中发现了多少变异，了解测量系统的运行状况。将 Y 分配给 Y，响应角色，将部件分配给部件，样本 ID 角色，将操作员分配给 X，分组角色，MSA 方法设置为EMP，散度图类型设置为极差，模型类型设置为交叉。
在这里插入图片描述
平均图显示每个操作员和部件组合的平均测量值。在该示例中，部件测量值的均值通常超过了控制限。这是想要的结果，因为它指示可以检测部件间变异。极差图显示每个操作员和部件组合的变异性。在该示例中，极差位于控制限内。这是想到的结果，因为它指示操作员采用相同的方式测量部件且具有相似的变异。
点击“Y 的测量系统分析”旁边的红色小三角并选择平行性图。
在这里插入图片描述
平行性图按操作员显示每个部件的平均测量值。因为线条通常是平行的，没有主要的交叉点，可以推断出操作员和部件之间没有交互作用。
点击“Y 的测量系统分析”旁边的红色小三角并选择 EMP 结果。
在这里插入图片描述
“组间相关”指示可以归因于部件的总变异的比例。“组间相关”值接近 1，这说明大多数变异来自部件而非测量系统。

变异性量具图

变异性量具图用于分析连续测量值，可揭示测量系统当前的性能。还可以执行量具研究，查看数据中的变异测量。
以2 Factors Crossed.jmp为例，假定有包含部件测量值的数据。三名操作员 Cindy、George 和 Tom 分别测量了 10 个部件。他们将每个部件都测量了三次，总共得到 90 个观测。此时想确定操作员间的变异。选择测量并点击 Y，响应。选择操作员并点击 X，分组。选择部件编号并点击部件，样本 ID。
在这里插入图片描述
通过查看标准差图，您可以看到 Cindy 和 George 的测量值比 Tom 的测量值有更大的变异，Tom 测量部件是最一致的。George 的测量值具有最大的变异，因此他测量部件是最不一致的。

计数量具图

使用一致性测量评估分类测量过程，可以检查如下方面：评级员在对某个部件分类时的有效程度、评级员相互之间的一致程度，以及评级员在若干次评级过程中保持自我一致的程度。
以Attribute Gauge.jmp为例，数据中包含部件通过或失败的评级信息。三位评级员（分别标识为 A、B 和 C）各自记录了 50 个部件的评级信息：0（通过）或 1（失败），且每个部件记录三次。此时想要检查以下方面：评级员对部件正确分类的有效程度、评级员相互之间的一致程度，以及评级员在各次评级过程中保持自我一致的程度。
在这里插入图片描述

显示评级员针对每一个部件相互之间保持一致的程度。例如，从该图上您可以看到部件 6、12、14、21、22 等的一致性百分比有所下降。这些部件可能较难分类。在本例中，看起来评级员的表现比较相似。评级员 C 的一致性最低，但差异不显著（约为 89%，而不是 91%）。

过程能力

展示测量随时间推移过程的变异性，过程能力分析用在过程控制中，用来测量一个过程相对于给定规格限的表现情况。好的过程不仅稳定，并且能持续生产符合规格限的产品。能力指标测量相对于规格限的过程能力，它由过程中心和变异性来汇总。

CUSUM控制图

累积和 (CUSUM) 控制图支持您检测过程中的较小偏移。这些图有助于检测随时间出现的偏移（如逐渐漂移），以及不一定伴有突然偏移的偏移。
在这里插入图片描述
CUSUM 图上的垂线指示温度测量值中的偏移大约从样本 26 开始。

EWMA 控制图

指数加权移动平均 (EWMA) 图可用于检测过程中的较小偏移。指数加权移动平均 (EWMA) 图上的各点是所有以前的子组均值（包括当前子组样本的均值）的加权平均值。权重随着时间的回溯呈指数级下降。
在这里插入图片描述
EWMA 图中的紫色垂直线表示偏移。在样本 4 和 17 处检测到偏移开始。

多元控制图

多元控制图用于监控两个或更多相互关联的过程变量。一元控制图用于监控单个独立过程特征；而当过程变量相互关联时，则需要多元控制图。

模型驱动的多元控制图

模型驱动的多元控制图用于监控单个控制图中多个过程的参数。“模型驱动的多元控制图”(MDMVCC) 平台支持基于主成分或偏最小二乘模型生成控制图。对于一组连续变量，MDMVCC 平台使用主成分生成控制图。对于保存的主成分或偏最小二乘得分函数，MDMVCC 平台基于这些提供的模型生成控制图。使用 MDMVCC 平台以交互方式探索和理解导致失控信号的底层成分。

传统控制图

控制图是一种用于监控过程变异的图形化分析工具。过程中的自然变异可使用一组控制限来量化。控制限可帮助区分一般原因变异和特殊原因变异。通常会采取措施来确定和消除特殊原因变异。对过程中的一般原因变异进行量化也很重要，因为这决定了过程能力。

Pareto图

帕累托图，是“二八原则”的图形化体现。二八法则又叫帕累托法则，最早是由意大利经济学家帕累托发现的。对于帕累托图，长条是按频数计数从高到低的顺序显示的。在流程改进过程中，这些图表常常用于确定首先需要关注的领域。
含有累积频数线条的帕累托图
累积百分比曲线和累积百分比数轴在右侧。前两个结果大约占所有结果的 75%。（请记住，80/20 法则是近似的。）这里，企业可能会关注前两个结果。这个示例还使用了颜色来突出显示前两个结果。

关系图（因果图）

使用“关系图”平台可构建因果图，亦称石川因果图或鱼骨图。使用这些关系图可以：
•整理导致某种效应的原因（问题根源）
•执行头脑风暴分析
•标识变量，为进一步实验做准备
在这里插入图片描述
主要因子包括 Inspection、Solder process、Raw card、Components 和 Component insertion。从每个主要因子中又可细分出可能的分支原因，如从 Inspection 因子可细分出 Inspector、Measurement 和 Test coverage。可以一次关注一个方面，进一步检查每个主要因子的可能原因或变异来源。

管理规格限

“管理规格限”实用工具支持同时快速添加或编辑若干列的许多规格限。这些规格限随后会用在将来的任何分析中。还可以指定每个过程的重要性值并指示限值是否应该作为参考线显示在图形中。以Cities.jmp为例
在这里插入图片描述
设置限值：

再分析时就可以看到规格限：

可靠性和生存

寿命分布

寿命数据分析或寿命分布分析是对某个产品、元件或系统的寿命建模以预测寿命或失效时间的过程。以Reliability/Fan.jmp为例，有 70 台发动机风扇的失效时间数据，其中有些失效时间删失。您想要拟合失效时间的分布，然后估计各种可靠性测量值。
在这里插入图片描述

使用对数正态分布和相应的尺度，可以看到数据点落在红线周围，指出对数正态拟合时合理的。

刻画器有助于直观演示拟合分布以及估计概率和分位数。例如，“分位数刻画器”指出估计的失效时间中位数为 25,418.67 小时。

以X拟合寿命

以X拟合寿命分析仅有一个因子情况下的寿命时间，可以选择使用各种变换对事件与因子之间的关系建模。以Reliability/Devalt.jmp为例，其中包含某设备在加速工作温度下的失效时间数据。在正常工作温度 10 摄氏度时未记录任何失效时间观测；其他所有观测显示为 40、60 和 80 摄氏度这三个加速温度水平下的失效时间或删失值。
在这里插入图片描述
【tip】Weibull分布在可靠性工程中被广泛应用，尤其适用于机电类产品的磨损累计失效的分布形式。由于它可以利用概率值很容易地推断出它的分布参数，被广泛应用于各种寿命试验的数据处理。

可以看到，10°下同等工作时间后，损坏概率最小。

【实验设计】

实验设计工作流程

在这里插入图片描述
描述：确定实验目标。标识响应和因子。目标可以是标识活跃因子、查找最优因子设置或构建预测模型。
指定：确定或指定认为能够充分描述实际情形的假设模型。假设模型是一个初始模型，理想情况下包含要评估的所有效应。
设计：生成与假设模型一致的设计。评估该设计以了解其优点和局限性，并确保它可以按照假设模型和目标提供您所需的信息。
收集：执行每次试验并记录响应值。
拟合：用实验数据来拟合假设模型。在某些情形下，可能需要扩充设计并执行额外试验来解决模型的不确定性。
预测：使用经过微调的模型来实现实验目标。确定哪些效应是活跃的、找到可以优化响应的因子水平，或构建预测模型。

以咖啡浓度实验设计为例：
描述：
目标：确定哪些因子对咖啡浓度有影响
响应：咖啡的浓度（该浓度是使用折射计测量的总溶解固体量），以往的研究表明浓度读数为 1.3 最为理想，而浓度在 1.2 和 1.4 之间也是可接受的。
因子：研磨、温度、时间、咖啡豆的量和测量地点。研磨是两个水平的分类因子，温度、时间、咖啡豆量都是连续因子，测量地点时包含三个水平的分区组因子。
在这里插入图片描述

定制设计中输入响应和因子。
指定：

在模型中可以指定交互、RSM、交叉和幂，但此次实验只需要关注因子的主效应，因此不用向模型中添加其它任何效应。
设计：
请添加图片描述
生成设计后，会得到试验设计方案及其设计评估。
在这里插入图片描述
设计评估在后续进行详细解析。制表后可以得到试验设计表。
收集：
在每个测量地点，按照设计表中显示的顺序执行四次试验。在不同试验中重置设备和材料，将实验结果填入表中。

拟合：

分析数据：
在这里插入图片描述
可以看到咖啡豆的量、测量地点和时间在 0.05 水平下显著，温度和研磨不显著。因此可以考虑简化模型，温度和研磨看起来不活跃，这两个效应对模型贡献随机噪声。去除这些效应后重新拟合模型，以获取与活跃效应有关的模型参数的更精确估计值。得到刻画预测器如下：
在这里插入图片描述
图形顶部行中的前两个图显示，在给定其中一个因子设置的情况下，浓度如何随另一个因子发生变化。例如，当咖啡豆的量为 2 时，时间图中对应的线条显示浓度预测值如何随时间变化。图顶部行左侧的值给出了选定因子设置下的浓度（红色）预测值以及浓度均值的置信区间。顶部行最右侧的图显示浓度的意愿函数。意愿函数指示目标为 1.3 最理想。意愿随着您远离该目标而降低。意愿在限值 1.2 和 1.4 处接近 0。底部行中的图显示每个因子在另一个因子设置处的意愿迹线。图底部行左侧的值给出了选定因子设置所对应的响应值的意愿。

实验设计的原则和方针

效应等级

在回归建模中，效应等级原则主张主（一阶）效应趋向于解释响应中最大的变异量。二阶效应（即：交互作用效应和二次项）解释的变异量紧接其后。再后是更高阶的项（按等级顺序）。以下是建模的含义：主效应更有可能比二阶效应重要；二阶效应更有可能比三阶效应重要；依此类推到更高阶的项。

效应遗传

效应遗传原则指的是在模型中应该加入高阶效应对应的低阶成分。该原则来源于观测上的证据，即：具有较小主效应的因子往往不会有显著的交互作用效应。

强效应遗传要求将模型效应的所有低阶成分都包含在模型中。假定模型中有一个三因子交互作用 (ABC)，那么其所有成分主效应和双因子交互作用（A、B、C、AB、AC、BC）也都必须包含在模型中。

弱效应遗传要求仅在模型中包含模型效应的一个序列的低阶成分。若模型中有一个三因子交互作用，那么该模型必须包含涉及到的某一个因子以及涉及该因子的某一个双因子交互作用。假定模型中有一个三因子交互作用 (ABC)，那么，若 B 和 BC 也包含在模型中，则该模型满足弱效应遗传。

对于连续因子，效应遗传可确保模型对于因子位置和尺度的变化保持不变。

效应稀疏

效应稀疏原则断定响应中的多数变异由相对少量的效应来解释，有点奥卡姆剃刀原则的思想。筛选设计要研究许多效应，所以该设计非常依赖效应稀疏原则。经验表明，筛选设计中使用的试验次数应该至少两倍于可能显著的效应的数量。

设计评估

针对系统生成的设计方案，JMP还提供了设计评估的功能，通过该功能可以查看现有实验设计的优点和局限性、确定设计用于检测与响应中有意义的变化相关的效应的能力、处理预测方差和估计值的精度、揭示别名现象、获得效率测度。

评估丢失试验的影响

在实际试验中，可能会因为现实情况无法进行某组试验，或对某组试验的观测丢失，此时需要评估丢失试验的影响。以Design Experiment/Bounce Data.jmp为例，研究人员做了一个实验来探索三个因子（硅石、硫磺和硅烷）对网球弹性（拉伸）的影响。实验的目标是建立拉伸的预测模型。使用“响应曲面设计”平台选择了包含 15 次试验的 Box-Behnken 设计。实验后，研究人员得知硅石 = 0.7 和硅烷 = 50 的两次试验未正确处理。这些试验不能包括在数据分析中。可以使用“评估设计”平台评估未包含这两次试验的影响。获取原定 15 次试验的设计的诊断，并将其与实际只有 13 次试验的设计（缺少两次试验）的诊断进行比较。

功效分析

生成原定设计：
在这里插入图片描述

生成丢失设计：

实际设计的功效值均小于原定设计的功效值。对于硅石和硫磺，原定设计中检验的功效几乎是实际设计中功效的两倍。

预测方差刻画

“预测方差刻画”可帮助您了解您的预测在设计空间中的哪些位置具有较多或较少的变异。期望得到较低的预测方差。使用最大化方差选项查找最大方差。最大化的预测方差刻画如下图所示，原定设计（顶部）和实际设计（底部）
最大化的预测方差刻画，原定设计（顶部）和实际设计（底部）
两个设计的刻画器在众多的设计点中标识了相同的设计点：硅石=0.7、硫磺=1.8、硅烷=40，在这点上预测方差最大。原定设计的最大预测方差为 1.396，实际设计的最大预测方差为 3.021。请注意有其他点可使预测方差最大化。实际设计的最大预测方差较大意味着设计空间的某些部分中的预测没有它们在原定设计中的预测准确。

设计空间比例图

设计空间比例图显示相对预测方差位于给定值之下的设计空间的比例。希望得到的结果是：有较大比例的设计空间具有较低的预测方差值。在原定设计的窗口中，在图中右击，然后选择编辑 > 复制框架内容。在实际设计的窗口中，找到“设计空间比例图”分级显示项。在图中右击，然后选择编辑 > 粘贴框架内容。
在这里插入图片描述
在整个设计空间上实际设计的相对预测方差大于原定设计的相对预测方差。随着设计空间覆盖面的增加偏差增大。