判断是否有统计意义/差异具有显著性/具有显著差异/零假设(希望证明为错误的假设)/卡方检验

(1)有统计学意义

**统计学意义是指在研究组和对照组间出现疗效差异时,要考虑这种差异是防治措施的疗效还是因抽样误差所引起的.可通过P值判断。
**P值指的是比较的两者的差别是由机遇所致的可能性大小。****P值越小,越有理由认为对比事物间存在差异。**例如,P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%,或者说,**别人在同样的条件下重复同样的研究,得出相反结论的可能性不足5%。**P>0.05称“不显著”;P<=0.05称“显著”,P<=0.01称“非常显著”。

由于常用“显著”来表示P值大小,所以P值最常见的误用是把统计学上的显著与临床或实际中的显著差异相混淆,即混淆“差异具有显著性”和“具有显著差异”二者的意思。其实,前者指的是p<=0.05,即说明有充分的理由认为比较的二者来自同一总体的可能性不足5%,因而认为二者确实有差异,下这个结论出错的可能性<=5%。而后者的意思是二者的差别确实很大。举例来说,4和40的差别很大,因而可以说是“有显著差异”,而4和4.2差别不大,但如果计算得到的P值<=0.05,则认为二者“差别有显著性”,但是不能说“有显著差异”。

(2)差异具有显著性

二者确实有差异,下这个结论出错的可能性<=5%;

(3)具有显著差异:

后者的意思是二者的差别确实很大;

(4)统计学中的假设

(4-1)零假设

在推论统计学中,零假设(英语:null hypothesis,又译虚无假设、原假设,符号:H0)是做统计检验时的一类假设。

零假设的内容一般是希望能证明为错误的假设,或者是需要着重考虑的假设。
比如说,在相关性检验中,一般会取“两者之间无关联”作为零假设,
而在独立性检验中,一般会取“两者之间非独立”作为零假设。

(4-2)备择假设

与零假设相对的是备择假设(对立假设,英语:alternative hypothesis),即希望证明是正确的另一种可能。
从数学上来看,零假设和备择假设的地位是相等的,但是在统计学的实际运用中,常常需要强调一类假设为应当或期望实现的假设。
如果一个统计检验的结果拒绝零假设(结论不支持零假设),而实际上真实的情况属于零假设,那么称这个检验犯了第一类错误。
反之,如果检验结果支持零假设,而实际上真实的情况属于备择假设,那么称这个检验犯了第二类错误。
通常的做法是,在保持第一类错误出现的机会在某个特定水平上的时候(即显著性差异值或α值),尽量减少第二类错误出现的概率。

自己的理解:第一类错误在某个特定水平,保证了我们数据的大致分布,与我们当初设定零假设是一致的,我们的零假设是保证大多数被证明是错误的假设,先保证大多数正确分布的(原假设),再减少少量错误分布的(备择假设——本来数量就比较少);

(5) 卡方检验

1)建立零假说(Null Hypothesis),即认为观测值与理论值的差异是由于随机误差所致;
2)确定数据间的实际差异,即求出卡方值;
3)如卡方值大于某特定概率标准(即显著性差异)下的理论值,则拒绝零假说,即实测值与理论值的差异在该显著性水平下是显著的。

关于统计学里面的P值,与定义的a是很有关系的,只有根据定义好的a,去判断P值是否有统计学意义。
以上是个人的一些理解。另外还想补充一下p值的具体含义(自己学的时候也总是不好理解):
就用p<0.05与p<0.01相比较:
1)p值通常是和a(阿发)相联系比较的。(a就是允许犯错误的概率,一般在做假设检验之前先定好)
2)p<0.05就是说:拒绝原假设h0(而h0为真)的犯错误的概率小于0.05。若此时定a为0.05,就可以拒绝h0,接受h1。
3)相同的p<0.01就是说:拒绝原假设h0(而h0为真)的犯错误的概率小于0.01。
两个p值比较下来,就是说在第二个p值条件下拒绝h0更有把握,犯错误的可能性更小一些。这并不说明实际中样本间的差异,第一种就比第二种小一些。

(6)”有统计学意义"和"差异显著"的区别

”有统计学意义"和"差异显著"是两个不同的概念,“差异显著"易给人一种误导,原来两概念在统计学中经常有点通用,现在明确地只能用“有统计学意义”。P<0.05是指假设H0(即两总体没区别)成立的可能性概率在5%以下,a就是允许犯Ⅰ类错误(拒绝了正确的无效假设H0)的概率,一般在做假设检验之前先定好,如果a=0.05,表示允许犯Ⅰ类错误的概率为0.05,所以当P<0.05时,说明在a=0.05允许的范围内,认为两总体是有差异的,即两总体差异有统计学意义(指在a=0.05的统计学参数情况下);
如果此时P=0.04,而先设定a=0.01,则认为两总体差异无统计学意义(指在a=0.01的统计学参数情况下),虽然两总体没变,两总体差异也没变;
所以 ”有统计学意义"并不等同于"差异显著” ,举个例吧:两组数:
A组:3, 3.05, 3.01, 3.04, 2.95;
B组:3.2, 3.1, 3.15, 3.14, 3.12;
两组数差异(均数)并不大,但P<0.001,设定a=0.01或0.05,则认为两总体差异统计学意义。这主要与两组数的标准差有关。如果写成两总体差异显著,易认为两组数(均数)差别大。
两组数差异(均数)大,但无统计学意义的例子就不举了。

P值是论文中最常用的一个统计学指标,可是其误用、解释错误的现象却很常见。因此,很有必要说明p值的意义、用法及常见错误。

P值指的是比较的两者的差别是由机遇所致的可能性大小。P值越小,越有理由认为对比事物间存在差异。例如,P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%,或者说,别人在同样的条件下重复同样的研究,得出相反结论的可能性不足5%。P>0.05称“不显著”;P<=0.05称“显著”,P<=0.01称“非常显著”。

由于常用“显著”来表示P值大小,所以P值最常见的误用是把统计学上的显著与临床或实际中的显著差异相混淆,即混淆“差异具有显著性”和“具有显著差异”二者的意思。其实,前者指的是p<=0.05,即说明有充分的理由认为比较的二者来自同一总体的可能性不足5%,因而认为二者确实有差异,下这个结论出错的可能性<=5%。而后者的意思是二者的差别确实很大。举例来说,4和40的差别很大,因而可以说是“有显著差异”,而4和4.2差别不大,但如果计算得到的P值<=0.05,则认为二者“差别有显著性”,但是不能说“有显著差异”。

由于“有显著差异”和“差异具有显著性”容易混淆,因而现在有些期刊提倡用“差异有统计意义”来代替“差异有显著性”,用“差异无统计意义”、“差异有高度统计意义”来代替“差异不显著”和“差异有高度显著性”。例如《中华胃肠外科学》即是如此。

如果P>5%,是否我们就可以下结论说比较的二者没有差别呢?不能。P>5%只能说明没有充分的证据说明二者确有差别,但是也不能说二者没有差别或差别很小。在这两个极端之间还有一个过渡区间,即无论下有差别还是没有差别或差别很小的证据都不足。要推断二者没有差别或差别很小,需要采用等效检验的统计推断方法。

参考资料

不得不说的P值:http://blog.sciencenet.cn/blog-2068-9916.html

  • 23
    点赞
  • 96
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 选择两类样本间有显著性差异的变量可以采用以下方法: 1. 均值检验:比较两类样本的均值,使用 t 检验或者 ANOVA 分析,来判断两类样本是否显著性差异。 2. 秩和检验:使用秩和检验,例如 Wilcoxon 或者 Mann-Whitney U 检验,判断两类样本的排名是否显著性差异。 3. 分箱检验:对变量进行分箱,使用卡方检验或者 Fisher 精确检验来判断两类样本在不同分箱内的数量是否显著性差异。 4. 回归分析:使用逻辑回归或者其他回归分析模型,来判断变量与分类结果之间的关系是否显著性差异。 选择合适的方法取决于数据的特征,例如变量的分布情况以及样本大小等。 ### 回答2: 选择两类样本间的有显著性差异的变量可以通过以下步骤进行: 1. 确定研究目的:首先需要明确研究的目标和假设,明确要比较的两类样本,并确定研究的重点。 2. 收集数据:在收集数据时,需要确保两类样本的数据来源相同,数据样本足够大且具有代表性。 3. 数据预处理:对收集到的原始数据进行预处理,包括去除异常值、缺失值的处理、数据的标准化等,以确保数据的准确性和可比性。 4. 特征选择:使用合适的统计方法对数据进行特征选择,筛选出与两类样本之间有差异的变量。常用的特征选择方法包括t检验、方差分析(ANOVA)、卡方检验等。 5. 统计分析:对筛选出的变量进行统计分析,通过对比两类样本间的均值、方差等统计值,判断变量是否具有显著差异。常用的分析方法包括独立样本t检验、方差分析卡方检验等。 6. 显著性判断:根据统计分析的结果,判断变量是否具有显著差异。一般使用p值来判断,当p值小于设定的显著性水平如0.05时,则认为差异显著的。 7. 结果解释:根据统计分析结果,解释变量差异的具体意义,可以结合实际背景和研究问题,进一步推测造成差异的原因。 总的来说,选择两类样本间的有显著性差异的变量需要明确研究目的和假设,进行数据收集和预处理,使用适当的统计方法进行特征选择和分析,并根据统计结果判断差异显著性,最后解释差异意义。 ### 回答3: 要选择两类样本间的有显著性差异的变量,可以按照以下步骤进行: 首先,获取两类样本的数据,并对其进行预处理。这包括数据清洗、缺失值处理等。确保数据的准确性和完整性。 其次,进行变量筛选。可以使用不同的变量选择方法,如:方差分析(ANOVA)、卡方检验、独立样本t检验、秩和检验等。这些方法可用于判断不同类别样本间变量的差异性和显著性。根据不同的研究目的和数据类型,选择适合的方法。 接下来,根据变量选择的结果,选取具有显著差异的变量。可以通过查看p值、显著性水平等指标来判断变量是否在两类样本间具有差异。同时,还需考虑样本大小、数据分布等因素,以避免虚假发现。 在选择变量时,还应考虑变量的实际意义和研究目的。有些变量可能具有显著差异,但对研究结果的解释能力较弱,不具有实际应用价值。因此,在选择变量时,要综合考虑统计显著性和实际意义。 最后,进行进一步的数据分析和解释。对于选取的具有显著差异的变量,可以进行多元分析、回归分析、聚类分析等,以深入探究其在两类样本间的差异特征和预测能力。 总之,选择两类样本间有显著性差异的变量需要进行数据预处理、变量筛选和变量选择等步骤。通过综合考虑统计显著性和实际意义,选取具有差异和预测能力的变量,可以为后续研究提供重要的参考依据。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值