r语言中mpg数据_R语言数据实战

本文链接：https://blog.csdn.net/weixin_42398171/article/details/111986172

原标题：R语言数据实战 | 统计检验

1、单个总体均值的t检验

1. 什么是检验？

检验(test)是统计学中最重要的概念之一，在科学研究和实际业务中都有着广泛的应用。用一句话来概括就是：人们希望通过掌握的数据和其他背景知识确认某个假设是否成立(比如某种药物是否有效，股票是否有上扬的趋势，一种汽车的油耗是否为15mpg，一组病人血压的均值是否大于120mmHg)。

考虑一个只有赢或者输两种情况的赌局，每次获胜的概率p是未知的。一个赌徒想要确认在这个赌局中每次获胜的概率是否是0.5，或者说他希望确认这是否是一个公平的赌局。如果每次获胜的概率不是(更严格地说是小于等于)0.5，那么这名赌徒就不希望进入这个对他不利的赌局。在这里，这个未知的参数p是关键。假如这名赌徒旁观了其他人参加这个赌局获胜的情况，其他人一共赌了100局，其中获胜30次，那么如何通过这组数据(样本)来判断获胜概率是否是0.5呢？

在这个例子中，我们掌握了赌100次的获胜情况(数据)，并且知道这个赌局只有输赢两种情况，每次获胜的概率p都是一样的(背景知识)，我们希望确认p=0.5这个假设是否成立。统计学中解决此类问题的思路是：假设未知参数(p)是特定的值，然后通过数据判断这个假设是否合理(建立检验统计量等)。如果不合理，可以拒绝这个假设；如果合理，那么持保留意见，不去拒绝假设。

这里，假设p=0.5，统计学中也常常写作：p=0.5，也就是原假设：p=0.5。

如果这个赌局是公平的，那么一个人赌100局却只赢30局甚至更少的概率是多少呢？通过计算可知，这个概率大概是，也就是说，在一个公平的赌局下，一个人输那么惨，或者比这还惨的可能性是(小概率事件)，这看起来不太可能。更可能是因为这个赌局本身就是不公平的(p不是0.5)才导致这个人输得那么惨。在这种情况下，我们认为之前的假设是不对的，统计学中也称作拒绝原假设。因此，认为这个赌局并不是公平的，也就是说拒绝了p=0.5这个假设。

2. 学生t检验

对于不同的假设和问题，统计学上有不同的检验来处理，以上的例子只是检验的一个特例而已。下面介绍的是非常常用的单个总体均值的假设检验，也称为学生t检验。学生t检验简称t检验，最早由William Sealy Gosset于1908年提出。Gosset受雇于都柏林的健力士酿酒厂担任统计学家, 他提出了t检验以降低啤酒质量监控的成本