总体和个体,样本和样本值

综上:

(1)试验全部可能的观察值称为总体。注意:例如研究200个学生的身高,那么总体就是这200个同学,容量为200。并不是指身高值去除重复后的集合。

(2)总体中的每个观察值称为个体。(即200个学生,每一个人都是一个个体。)

(3)一个总体对应一个随机变量X。(注意:虽然总体有200个学生,因为有的同学身高相等,所以身高取值可能只有20个。随机变量X可以看成是用来表示这20个身高值的。)

(4)抽出的部分个体称为样本。(样本\subseteq总体)(注:如果是放回抽样,可能存在一个个体被重复抽到)

 

 

(5)对总体X进行n次试验,每一次试验用随机变量Xn表示,n表示第n次随机试验,第一次试验用X1表示,第二次用X2表示,以此类推。

(6)虽然每次Xn只能取到一个值,但是取值范围和X的取值范围是相同的,所以Xn和X服从同一个分布。

(7)因为X1,X2,X3......Xn进行n次试验互不影响,所以是相互独立的。

(8)X1,X2,X3...Xn合到一起称为一个样本。(大写字母表示)

(9)x1, x2, x3......xn合到一起称为样本值。(小写字母表示)

### 总体主成分与样本主成分的概念及其区别 #### 定义与概念 总体主成分是指基于整个群体的真实协方差矩阵计算得出的理想化主成分。这些主成分反映了数据集中所有个体之间的内在结构关系,理论上能够捕捉到最本质的变化模式。 而样本主成分则是通过有限数量观测所构成的样本集来估计出来的近似解。由于现实中很难获得完整的总体信息,因此通常只能依赖于样本来推断整体特性[^4]。 #### 计算方式的不同 当考虑总体时,假设已知确切的概率密度函数以及对应的期望向量μ协方差矩阵Σ,则可以直接利用它们来进行精确计算;但在实践中往往无法获取这样的先验知识,转而采用从具体观察对象中抽取的一部分——即样本——作为替代品去估算未知参数。此时会构建样本$\bar{x}$及样本协方差S,并以此为基础求得相应的特征向量v_i (i=1,...,p),进而形成一组新的坐标轴方向,这就是所谓的“样本主成分”。 ```python import numpy as np def calculate_sample_pca(data_matrix): mean_vector = np.mean(data_matrix, axis=0) centered_data = data_matrix - mean_vector covariance_matrix = np.cov(centered_data.T) eigenvalues, eigenvectors = np.linalg.eig(covariance_matrix) sorted_indices = np.argsort(eigenvalues)[::-1] principal_components = eigenvectors[:,sorted_indices] return principal_components, eigenvalues[sorted_indices], mean_vector ``` #### 应用场景差异 - **理论研究**:如果目的是为了理解某种现象背后的机制或是验证某些假说,在理想条件下讨论总体主成分是有意义的; - **实际应用**:然而在大多数情况下,尤其是涉及到预测、分类等问题时,更多关注的是如何有效地利用现有资料做出合理决策,这时就需要依靠样本主成分分析方法了[^5]. #### 结果解释上的考量 得注意的是,尽管两者都旨在揭示原始变量间的主要变异趋势,但由于前者建立在一个更为抽象层面之上,后者则更贴近现实情况下的不确定性因素影响,所以在解读结论时也应有所区分对待。例如,在评估模型性能指标方面可能会存在细微差别[^2].
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值