二、多因子探索分析与可视化

一、假设检验与方差检验

import numpy as np
import scipy.stats as ss
1.正态检验
H0:服从正态分布
H1:不服从
norm_dist=ss.norm.rvs(size=20) #符合标准正态分布的20个数
ss.normaltest(norm_dist) #检验是否为正态分布,p>0.05,不能拒绝原假设,符合正态分布,基于偏度和峰度的一种检验法
2.卡方检验
H0:观测与期望无显著差别
H1:有差别
ss.chi2_contingency([[15,95],[85,5]]) #得到检验统计量,p值<0.05,有差别,自由度,理论分布
3.独立T分布检验
H0:两者无显著差别
H1:有显著差别
ss.ttest_ind(ss.norm.rvs(size=100),ss.norm.rvs(size=200))#p值>0.05,则没有差异
4.方差检验
H0:多个样本总体均值相等
H1:多个样本总体均值不完全相等
ss.f_oneway([49,50,39,40,43],[38,32,30,26,34],[38,40,45,42,48])
5.qq图
from statsmodels.graphics.api import qqplot
from matplotlib import pyplot as plt
plt.show(qqplot(ss.norm.rvs(size=100)))  #检验是否为正态分布,基本位于角平分线上

二、相关系数

import pandas as pd
s1=pd.Series([0.1,0.2,1.1,2.4,1.3,0.3,0.5])
s2=pd.Series([0.5,0.4,1.2,2.5,1.1,0.7,0.1])
s1.corr(s2) #pearson 相关系数
s1.corr(s2,method='spearman')
df=pd.DataFrame([s1,s2]) #DataFrame
df.corr() #针对列进行相关计算
df1=pd.DataFrame(np.array([s1,s2]).T) #进行转置后再计算

三、回归

x=np.arange(10).astype(np.float).reshape((10,1))
y=x*3+4+np.random.random((10,1))
from sklearn.linear_model import LinearRegression
reg=LinearRegression()
res=reg.fit(x,y)#拟合过程
y_pred=reg.predict(x) #预测值
reg.coef_  #查看参数
reg.intercept_  #查看截距

四、主成分分析

data=np.array([np.array([2.5,0.5,2.2,1.9,3.1]),np.array([2.4,0.7,2.9,2.2,3])]).T
from sklearn.decomposition import PCA
lower_dim=PCA(n_components=1) #降的维度
lower_dim.fit(data)
lower_dim.explained_variance_ratio_  #降维后的重要性,即得到的信息量
lower_dim.fit_t
  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
主轴因子分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis)是两种常用的降维技术,它们有一些区别和不同的应用场景。 主轴因子分析(PCA)是一种无监督学习方法,用于将高维数据降低到低维空间。它通过找到数据中的主要方差方向,将原始特征转换为一组新的无关变量,称为主成分。这些主成分是原始特征的线性组合,按照方差大小排序。PCA的目标是尽可能保留原始数据的信息,并且在降维后尽量减少信息损失。PCA广泛应用于数据可视化、特征提取和数据压缩等领域。 因子分析(Factor Analysis)是一种统计方法,用于探索观测数据背后的潜在因素结构。它假设观测数据由一组潜在因素和测量误差共同决定。因子分析通过估计潜在因素与观测变量之间的关系,将观测数据解释为潜在因素的线性组合。因子分析可以帮助我们理解数据背后的结构和关联性,并且可以用于变量降维、特征提取和数据压缩等任务。 区别: 1. 目标不同:PCA的目标是通过保留尽可能多的原始数据信息来降维,而因子分析的目标是探索观测数据背后的潜在因素结构。 2. 假设不同:PCA假设主成分是原始特征的线性组合,而因子分析假设观测数据由潜在因素和测量误差共同决定。 3. 数据类型不同:PCA适用于数值型数据,而因子分析适用于多个观测变量之间存在相关性的数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值