python数据分析新手入门课程学习——(四)探索性数据分析(多因子)(来源:慕课网)

本文介绍了Python数据分析的基础,包括假设检验、方差分析、相关系数、线性回归和主成分分析。重点讲解了卡方检验在检验变量关系中的应用,以及如何使用QQ图评估分布。此外,还讨论了皮尔逊和斯皮尔曼的相关系数,线性回归的最小二乘法,以及PCA和奇异值分解在降维中的作用。
摘要由CSDN通过智能技术生成

一,理论铺垫

1.假设检验与方差检验

假设检验:根据一定的假设条件从样本推断总体,或者推断样本与样本之间关系的一种方法我们换个说法来解释假设检验,就是做出个假设,然后根据数据或已知的分布性质来。推断这个假设成立的概率有多大具体过程如下:

 例子:

 假设检验的方法有很多,方法这些差别的一般取决于检验统计量的选取上。

如,μ检验法(检验一个样本,如上述例子),卡方检验(检验两个因素间有没有比较强的联系,也称四格检验),叔分布检验(常用于比较两组样本分布是否一致,像临床医学上,药物有没有效果可此分布检验)中,F检验(常用于检验多个样本间的关系,也称方差检验)等。

import numpy as np
#引入scipy中的一个统计包(正态分布)
import scipy.stats as ss

# (1)进行正态性的检验(检测是否为正态分布)
# 生成个标准的正态分布(包含20个数)
norm_dist = ss.norm.rvs(size = 20)
norm_dist
# 检测是否为正态分布,统计值是statistic,p值>0.05(显著水平),是符合假设的
#这里的normaltest基于偏度和峰度的一种检验法,并不是μ检验法
ss.normaltest(norm_dist)

我们这里看下卡方检验,检验化妆这个行为与性别有没有关系。

 如图所示,

(1)确定原假设:化妆与性别无关,即所有人(化妆不化妆人群)中男女分布一致。

(2)假设检验量就是卡方分布检验量。其中网络表示实际值(15),NPI表示的是理论分布(55)

(3)显着性水平:0.05

(4)P = 0.05,卡方值应该不大于3.841,而这个值= 129.3,拒绝这个原假设。

结论:性别与化不化妆是有关系的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值