在学习拉丁超立方抽样时,发现网上似乎没有太多关于拉丁超立方体的介绍,更别说拉丁超立方体+抽样的关系。因此,本文章尝试用最简单的话和形象的画图,描述拉丁超立方抽样和拉丁超立方与抽样的关系(重点在后者)。只作最低程度的概念介绍,想深入的请另外搜索”拉丁方阵“”正交拉丁方阵“”拉丁超立方采样“等。
非数学相关专业,纯分享自己的理解,如有错漏欢迎指正。
拉丁方阵
拉丁方阵(Latin square)是一种 n × n 的方阵,在这种 n × n 的方阵里,恰有 n 种不同的元素,每一种不同的元素在同一行或同一列里只出现一次(后面有图)。
拉丁方阵中的“横贯线(transversal)”
拉丁方阵中的“横贯线/transversal”,其定义是:从一个n阶拉丁方阵中找n个格子,其中每一行包含一个单元格,每一列包含一个单元格,并且每个符号都被选中一次。下图为一个拉丁方阵,图中4个蓝色格子就是4阶拉丁方阵中的一条横贯线。
拉丁超立方体
拉丁超立方体就是2维的拉丁方阵在高维的推广,包含2维的拉丁方阵、3维的拉丁立方体以及所有更高维的超立方体。
拉丁超立方体抽样(LatinHypercubeSampling,LHS)
基于拉丁超立方体结构的抽样方法即拉丁超立方体抽样(LatinHypercubeSampling,LHS),是一种从多元参数分布中近似随机抽样的方法,属于分层抽样技术。每个与轴垂直的超平面最多含有一个样本(可以理解为只选取超立方体中的某一个元素)。
拉丁超立方体抽样的步骤
(1)将每一维分成互不重迭的m个区间,使得每个区间有相同的概率(基于你对此维度的分布的信息,概率密度越大,则区间越窄。默认还是均匀分布,这样区间的长度相同)。
(2)在每一维里的每一个区间中随机抽取一个点;这些点构成了拉丁超立方体的总体。
(3)再从每一维里随机抽出总体中选取的点,将它们组成向量。在拉丁超立方体抽样中使用的技术是“抽样不替换”。一旦样本从分层抽取之后,这个分层将不再被抽样,因为它的值在样本集中已经有代表了。最终,每个分层都有一个样本被取出。
(4)需要注意的是,拉丁超立方抽样要求每个变量的分区数量m都相同。不过,该方法并不要求当变量增加时样本数m同样增加。
举例子理解拉丁超立方体抽样是如何抽取样本的
假设要在3维向量空间抽取3个样本,以上步骤简写为:分区、抽1、抽2,步骤如下图。图中“[“表示对其分区(虽然图中"[“是断开的,但是”["之间应是连续的,且覆盖该维变量取值范围的,且遵循上述(1)描述的分区要求)。这里没有着重说明是如何进行分区的,这部分可以看网上的其他文章。
举例子理解拉丁超立方与抽样的关系
假设同样在3维向量空间抽取3个样本,跟上面的例子一样,如何将拉丁超立方抽样与拉丁超立方联系起来?
假设a1表示为立方体纵向(高,垂直)的维度,a2表示为前后的维度,a3表示为立方体横向(水平)的维度。则拉丁超立方抽样的步骤可以表示为下图。
同理选择3个样本后,在立方体中,样本应为:
在这个三维的例子可以看出,样本所在平面不会有第二个样本,有点像横贯线的感觉,因为如果只有a1、a2两个纬度,那么选出的样本所画出的二维平面,就是横贯线那张图所展示的样子(只不过那张图是4×4,分区分了4个)。
讨论1——改变m
修改m,看看结果会如何。这里仅讨论将原来的m=3,减少为m=2。
假设同样在3维向量空间,但是抽取2个样本,这意味着分区也只用分成2个。结果如下图所示。看上去比”抽取3个样本“的例子简单,更好理解。
讨论2——改变n
n=1可以用线来描述抽样结果(后面会有图),n=2可以用面来描述抽样结果(如横贯线那张图),n=3可以用立方体来描述抽样结果(如上面的例子)。比较难以想象n>3时的抽样结果,n>3时是否有比较形象的理解方法?
这里比较简单可以想到,如下图所示。左图为4维,用立方体(n=3)和线(n=1)来描述4维超立方体抽样(n=4);右图为5维,用立方体(n=3)和面(n=2)来描述5维超立方体抽样(n=5)。并且假设它们都是互相垂直的。其他维同理。
随机抽样与拉丁超立方体抽样对比
相对于绝对随机的蒙特卡洛方法,拉丁超立方体对于输入概率分布中包含低概率结果情况的分析很有帮助。通过强制模拟中的抽样包含的“偏远”事件,拉丁超立方体抽样确保偏远事件在模拟的输出中被准确地代表。甚至当低概率结果非常重要的时候,可以只模拟低概率事件对输出分布的影响。
下图为在均值为0的正态分布中抽样的结果。简单来说,随机采样中,越靠近 μ 值被抽取的概率就越大;拉丁超立方采样中,分布密采样多点,分布疏采样少点。两种抽样方法,抽到的样均符合原来的分布,但前者不一定抽到极端的点,后者通过分区一定能抽到。
拉丁超立方抽样——进阶
更多如:最大最小优化拉丁超立方方法、最优拉丁超立方……这里不展开了。
参考
实验设计方法(二)——拉丁超立方体简介_物语科研数据分析-商业新知
欧拉的三十六军官问题 - 知乎
组合数学(4)——拉丁方矩阵_正交拉丁方-CSDN博客
最多可以找到几阶的汉字正交拉丁方阵? - 知乎
拉丁超立方采样(Latin hypercube sampling, LHS)及蒙特卡洛模拟简介 - 知乎
拉丁超立方体抽样Latin hypercube sampling说明[转]_雪月_新浪博客
Latin hypercube sampling - Wikipedia