学R做统计，初步认识假设检验-CSDN博客

本文链接：https://blog.csdn.net/2301_79425796/article/details/141469847

下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容。

1）栏目后续章节的文章将深入概括R语言在临床研究和新药创新领域的应用，填补了国内R教材中尚未广泛覆盖的部分内容。

2）专栏每篇文章都在 5000 字以上，质量平均分高达 94 分。已发表章节也会增加新的文章，已发表的文章也会更新版本，可留意专栏内容和题目信息。

3）由于每结束一个章节，专栏的优惠力度就会减小，当下正是订阅的最佳优惠时段，诚邀各位积极订阅！看全文请点击下面链接。

5章3节：在R语言中，从实际应用的角度认识假设检验-CSDN博客文章浏览阅读177次。假设检验是统计学中一种用于判断数据是否支持某一特定假设的常用方法。在数据分析中，假设检验帮助研究人员根据样本数据推断总体特征，从而做出科学决策。R语言作为一个功能强大的统计分析工具，提供了多种假设检验的方法和函数。本文将深入探讨R语言中假设检验的基本概念、常用检验方法及其应用，并提供具体的代码示例。https://blog.csdn.net/2301_79425796/article/details/141321965?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22141321965%22%2C%22source%22%3A%222301_79425796%22%7D

欢迎订阅我们专栏

.......前面部分请点击上面链接看原文（原文6910字）

初步认识假设检验

假设检验是统计学中的一种重要方法，它用于检验我们对总体某些参数特征所作的假设是否成立。通过样本数据，我们可以对这些假设进行验证，从而为决策提供科学依据。

假设检验的分类

1、假设检验可以分为参数检验和非参数检验

参数检验（parameter test）：参数检验用于对已知总体分布的某个未知参数进行检验。例如，检验一个总体均值是否等于某个特定值，这种检验需要假设总体分布已知或可以确定。

假设我们有一组学生的期末考试成绩，我们想要检验这些学生的平均成绩是否等于80分。我们假设这些成绩服从正态分布，这意味着我们知道总体分布的形式。

非参数检验（Nonparametric tests）：非参数检验用于对总体的分布形式进行检验。这种检验不依赖于总体的具体分布形式，而是通过对样本数据的排名或排序来进行检验。非参数检验适用于当总体分布未知或不满足某些假设时。

2、假设检验还可以分为双侧检验和单侧检验

双侧检验：当备择假设H1的方向对称时，我们称之为双侧检验。这种检验方法适用于当我们只关心总体参数是否有变化，不关心变化的方向时。

单侧检验：当备择假设H1的方向不对称时，我们称之为单侧检验。这种检验方法适用于我们只关心总体参数是否在一个特定方向上有变化的情况。

	定义	适用场景	备择假设 (H1)
双侧检验	当备择假设的方向对称时，我们称之为双侧检验。	当我们只关心总体参数是否有变化，而不关心变化的方向时。	H1:μ≠μ0H1:μ=μ0	例：检验某组学生的平均成绩是否与80分不同。
单侧检验	当备择假设的方向不对称时，我们称之为单侧检验。	当我们只关心总体参数在一个特定方向上有无变化时。	H1:μ>μ0H1:μ>μ0或 H1:μ<μ0H1:μ<μ0	例：检验某种新药的效果是否优于现有药物。

2、假设检验的基本步骤

假设检验的基本过程可以分为以下几个步骤：

1）提出假设：假设检验的第一步是建立一对互斥的假设，分别称为原假设和备择假设。原假设记作H0，通常是研究者希望通过证据来否定的假设；备择假设记作H1，它与原假设对立，研究者希望通过证据来支持的假设。

原假设 (H0)：一般表示没有效应或变化的假设。例如，某药物对疾病没有治疗效果。

备择假设 (H1)：表示存在效应或变化的假设。例如，某药物对疾病有治疗效果。

2）确定检验统计量：检验统计量是用来判断是否拒绝原假设的样本统计量。检验统计量的选择依赖于具体的假设检验类型。常见的检验统计量包括t统计量、z统计量、卡方统计量等。

3）确定显著性水平和拒绝域：显著性水平α表示在原假设为真的情况下，拒绝原假设的概率。常见的显著性水平包括0.05、0.01和0.1。拒绝域是指在显著性水平下，检验统计量的取值区域。当检验统计量的取值落在拒绝域内时，我们拒绝原假设。

4）分析统计结果：根据检验统计量的取值是否落在拒绝域内，我们决定是否拒绝原假设。如果检验统计量的取值在拒绝域内，说明结果显著，我们拒绝原假设；如果不在拒绝域内，则不能拒绝原假设。

3、假设检验的错误类型

假设检验可能出现两种类型的错误：

第一类错误：原假设H0为真时，却错误地拒绝了H0。犯第一类错误的概率称为显著性水平α。例如，如果显著性水平设为0.05，则表示有5%的概率在原假设为真的情况下错误地拒绝H0。

第二类错误：原假设H0不为真时，却没有拒绝H0。犯第二类错误的概率记作β。第二类错误的概率与样本大小、效应大小以及显著性水平等因素有关。

在测试新型药物是否比现有药物更有效的情境中，设定了原假设为新药和现有药物效果无显著差异，备择假设为新药效果显著优于现有药物，并将显著性水平设为 0.05。第一类错误是原假设为真时错误拒绝，比如新药实际效果与现有药物相同，但实验因随机波动等得到错误结果而拒绝原假设，认为新药更好，犯此类错误概率为 5%。

第二类错误是原假设不为真时没有拒绝。比如新药实际效果优于现有药物，但因样本量小或效应不显著得到错误结果未拒绝原假设，认为两者效果无差异。犯第二类错误的概率为 β，样本量小或新药效果提升幅度小会增加 β，导致错过发现新药有效的机会。

总结来说，第一类错误是原假设真时错误拒绝，例子中错认为新药有效；第二类错误是原假设假时未拒绝，例子中错认为新药无效。在假设检验中这两类错误不可避免，设计实验时要在控制显著性水平 α 和 β 值之间找平衡。例如在医学研究中，要权衡错误风险来确定合适的实验方案。

提醒大家，关于 t 检验等相关内容，我们会在后续的章节单独进行讲解。在这一节课中，对于下面的部分补充阅读，大家无需完全理解代码的每一个细节，仅需复制代码并运行一次，从而获得一次感性的认识就行。

........

欢迎订阅我们专栏，深度系统地学习R语言。

为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用，由于众多同学在计算机编程上经验欠缺，特此开设《用R 探索医药数据科学》专栏。该专栏每周至少会定期更新三篇，直到整个专栏更新完成。每篇文章都在 5000 字以上，质量平均分高达 94 分。还要提醒大家的是，每结束一个章节，专栏的优惠力度就会减小，当下正是订阅的最佳优惠时段，诚邀各位积极订阅！

专栏《用R 探索医药数据科学》链接：https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482