Python 中的 F-Test


本篇文章介绍 F 统计、F 分布以及如何使用 Python 对数据执行 F-Test 测试。

F 统计量是在方差分析检验或回归分析后获得的数字,以确定两个总体的平均值是否存在显着差异。 它类似于 T 检验的 T 统计量,执行 T 检验会告诉您单个变量是否具有统计显着性,而 F 检验会告诉您一组变量是否具有统计显着性。

统计显着性意味着什么?

如果你有一个实质性的结果,那么你得到这些结果可能不是巧合。 如果您的检验结果在统计上不显着,则必须丢弃它们,因为它们无效,并且您不能拒绝原假设。


F 统计量和 P 值

在确定总体结果是否显着时,您必须考虑 F 统计量和 p 值。

为什么? 结果显着并不一定意味着您的所有变量也都显着。 简而言之,统计涉及比较所有变量的综合影响。


方差(ANOVA) 分析中的 F 值

方差分析检验是一种统计分析方法,用于评估基于方差的均值差异,以查看两个或多个分类组之间是否存在统计上重要的差异。

ANOVA 将自变量分成两组或更多组,这是另一个重要的组成部分。 例如,一个或多个组可能被预测会影响因变量,而另一组可能被用作控制组并且预计不会产生影响。

在某种程度上,在方差分析中,F 值就像一种工具,有助于回答两个统计量或总体的均值之间的方差是否显着不同的问题。 P 值是获得至少与观察到的结果一样极端的结果的可能性,假定零假设为真,同样由方差分析中的 F 值确定。

称为 f 比率的测试统计量可以计算如下:

要使用 Python 执行以下测试,我们可以使用 Python 中的 SciPy 模块。

SciPy 为许多问题类型提供算法,包括优化、积分、插值、特征值问题、代数方程、微分方程、统计等等。

要安装 scipy,请运行以下命令:

pip install scipy

我们可以在 scipy.stats 模块中使用以下类。 scipy 中的 stats 类包含执行统计操作所需的所有函数和类。

>>> from scipy.stats import f

scipy.stats.f 有一个 CDF(累积分布函数)方法。 可以针对给定的统计信息计算使用 p 值。

因此,您可以确定是拒绝还是接受给定 alpha 水平的 NULL 假设。

考虑下面的例子:

导入模块并创建变量。

from scipy.stats import f
import numpy as np
a = np.array([1,2,1,2,1,2,1,2,1,2])
b = np.array([1,3,-1,2,1,5,-1,6,-1,2])
alpha = 0.05 # you can set to level.
The formula to calculate the F value is Var(X)/Var(Y).

# calculating F value.
F = a.var()/b.var()
Since F is a distribution:

df1 = len(a) - 1
df2 = len(b) - 1

scipy.stats.f 类包含我们可以用来计算给定统计数据的 p 值和临界值的函数。

# Fetching p-value.
p_value = f.cdf(F, df1, df2)
p_value > alpha

从上面的代码中,我们可以得到使用F统计计算的p值; 我们将拒绝 NULL 假设,即 a 的方差等于 b 的方差。

假设您对所提供的反映正态性的数据没有信心。 F 检验的更可靠替代方法是 Bartlett 检验或 Levene 检验。

Scipy 还提供了执行这些测试的工具。

巴特利特测试:

>>> from scipy.stats import bartlett
>>> x = [8.88, 9.12, 9.04, 8.98, 9.00, 9.08, 9.01, 8.85, 9.06, 8.99]
>>> y = [8.88, 8.95, 9.29, 9.44, 9.15, 9.58, 8.36, 9.18, 8.67, 9.05]
>>> z = [8.95, 9.12, 8.95, 8.85, 9.03, 8.84, 9.07, 8.98, 8.86, 8.98]
>>> stat, p = bartlett(x, y, z)
>>> p
1.1254782518834628e-05

p 值非常小; 我们可以说给定的总体没有相等的方差。

这是因为方差的不同。

>>> [np.var(x, ddof=1) for x in [x, y, z]]
[0.007054444444444413, 0.13073888888888888, 0.008890000000000002]

Levene 的测试:

>>> from scipy.stats import levene
>>> x = [8.88, 9.12, 9.04, 8.98, 9.00, 9.08, 9.01, 8.85, 9.06, 8.99]
>>> y = [8.88, 8.95, 9.29, 9.44, 9.15, 9.58, 8.36, 9.18, 8.67, 9.05]
>>> z = [8.95, 9.12, 8.95, 8.85, 9.03, 8.84, 9.07, 8.98, 8.86, 8.98]
>>> stat, p = levene(x, y, z)
>>> p
0.002431505967249681

p 值非常小; 我们可以说给定的总体没有相等的方差。

>>> [np.var(x, ddof=1) for x in [x, y, z]]
[0.007054444444444413, 0.13073888888888888, 0.008890000000000002]
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
下面是使用Python实现tf-idf文文本分类的示例代码: ```python import jieba from collections import Counter from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 读取文本数据 def read_text(file_path): texts = [] labels = [] with open(file_path, 'r', encoding='utf-8') as f: for line in f: label, text = line.strip().split('\t') texts.append(text) labels.append(label) return texts, labels # 分词 def cut_words(texts): cut_texts = [] for text in texts: cut_text = ' '.join(jieba.cut(text)) cut_texts.append(cut_text) return cut_texts # 构建词典 def build_vocab(cut_texts, k): all_words = [] for cut_text in cut_texts: words = cut_text.split(' ') all_words.extend(words) counter = Counter(all_words) vocab = {word: i for i, (word, count) in enumerate(counter.most_common(k))} return vocab # 计算TF-IDF值 def compute_tfidf(cut_texts, vocab): vectorizer = CountVectorizer(vocabulary=vocab) transformer = TfidfTransformer() counts = vectorizer.fit_transform(cut_texts) tfidf = transformer.fit_transform(counts) return tfidf.toarray() # 训练分类器 def train(x_train, y_train): clf = MultinomialNB() clf.fit(x_train, y_train) return clf # 测试分类器 def test(clf, x_test, y_test): y_pred = clf.predict(x_test) acc = accuracy_score(y_test, y_pred) print("accuracy:", acc) # 主函数 if __name__ == '__main__': # 读取数据 texts, labels = read_text('data.txt') # 分词 cut_texts = cut_words(texts) # 构建词典 vocab = build_vocab(cut_texts, 10000) # 计算TF-IDF值 tfidf = compute_tfidf(cut_texts, vocab) # 划分数据集 x_train, x_test, y_train, y_test = train_test_split(tfidf, labels, test_size=0.2, random_state=42) # 训练分类器 clf = train(x_train, y_train) # 测试分类器 test(clf, x_test, y_test) ``` 其,`read_text`函数用于读取文本数据,每行数据包括标签和文本,可以根据实际情况进行修改。`cut_words`函数用于对文本进行分词,使用jieba分词工具。`build_vocab`函数用于构建词典,选取出现频率最高的k个词语作为特征。`compute_tfidf`函数用于计算TF-IDF值,使用sklearn库的CountVectorizer和TfidfTransformer类。`train`函数用于训练分类器,使用朴素贝叶斯算法。`test`函数用于测试分类器,计算分类准确率。主函数的代码完成了整个流程,可以根据实际情况进行修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

迹忆客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值