统计量的定义

定义

X 1 , … , X n X_{1}, \ldots, X_{n} X1,,Xn 是来自总体 X X X 的一个样本, 若样本函数 T = T ( X 1 , … , X n ) T=T\left(X_{1}, \ldots, X_{n}\right) T=T(X1,,Xn) 不含任何未知参数, 则称 T T T是一个统计量.

举例

X 1 , … , X n X_{1}, \ldots, X_{n} X1,,Xn 是来自总体 X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) XN(μ,σ2) 的一个样本, 其中 μ \mu μ σ \sigma σ 均未知, 则

∑ i = 1 n X i , ∑ i = 1 n X i 2 , F n ( x ) \sum_{i=1}^{n} X_{i}, \sum_{i=1}^{n} X_{i}^{2}, F_{n}(x) i=1nXi,i=1nXi2,Fn(x) 是统计量
∑ i = 1 n ( X i − μ ) , ∑ i = 1 n X i 2 σ 2 \sum_{i=1}^{n}\left(X_{i}-\mu\right), \sum_{i=1}^{n} \frac{X_{i}^{2}}{\sigma^{2}} i=1n(Xiμ),i=1nσ2Xi2 不是统计量.


2021年7月2日10:17:13

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Python中计算Gap统计可以使用scikit-learn库中的cluster模块。具体步骤如下: 1. 导入需要的库和数据 ```python from sklearn.cluster import KMeans import numpy as np # 假设有一个数据集X,包含n个样本,每个样本有m个特征 X = np.random.rand(n, m) ``` 2. 计算原始Gap统计 ```python # 定义计算Gap统计的函数 def compute_gap(clustering, data, k_max): # 计算原始Gap统计 Wk = clustering.inertia_ # 计算聚类模型的SSE ref_Wks = [] for k in range(1, k_max+1): ref_Wk = [] for i in range(10): # 重复10次随机初始化 X_ref = np.random.rand(n, m) clustering_ref = KMeans(n_clusters=k, init='k-means++').fit(X_ref) ref_Wk.append(clustering_ref.inertia_) ref_Wks.append(np.mean(ref_Wk)) Gap = np.log(np.mean(ref_Wks)) - np.log(Wk) return Gap # 计算原始Gap统计 clustering = KMeans(n_clusters=k_max, init='k-means++').fit(X) Gap_orig = compute_gap(clustering, X, k_max) ``` 3. 计算调整后的Gap统计 ```python # 定义计算调整后的Gap统计的函数 def compute_adjusted_gap(clustering, data, k_max): # 计算调整后的Gap统计 Wk = clustering.inertia_ ref_Wks = [] for k in range(1, k_max+1): ref_Wk = [] for i in range(10): X_ref = np.random.rand(n, m) clustering_ref = KMeans(n_clusters=k, init='k-means++').fit(X_ref) ref_Wk.append(clustering_ref.inertia_) ref_Wks.append(np.mean(ref_Wk)) sd = np.std(np.log(ref_Wks)) # 计算标准差 Gap = np.log(np.mean(ref_Wks)) - np.log(Wk) s = sd * np.sqrt(1 + 1/10) # 计算调整因子 Gap_adjusted = Gap - s return Gap_adjusted # 计算调整后的Gap统计 clustering = KMeans(n_clusters=k_max, init='k-means++').fit(X) Gap_adjusted = compute_adjusted_gap(clustering, X, k_max) ``` 其中,k_max为最大聚类数,可以通过实验或经验确定。Gap统计通常越大越好,调整后的Gap统计也是如此,但需要比较不同聚类数下的Gap统计的大小来确定最佳聚类数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值