数据分析理论概览

概率论与数理统计

抽样sample
随机采样random sampling受总体中个体间自相关关系的影响
系统采样systematic sampling受个体特点规律性的影响
随机-系统采样systematic-random sampling不受上面的影响
多层次采样strtifed sampling适用于可分层的总体
变量variables
连续变量continuous定量变量(quantitative)
分类变量discrete定性变量(categories)
顺序变量ordinal定性变量(categories)
统计描述summary/describe
定量变量
总体均数mean/median
四分卫间距IQR3/4分位数-1/4分位数
极差rangemax-min
偏度skewness
峰度kurtosis
方差variance
标准差standard deviationsd=sqrt(var)
变异系数coefficient of variation,CVCV=sd/mean
定性变量
频数frequency/rate
联合分布joint distribution
众数mode
数据预处理
归一化/标准化
连续变量离散化
缺失值模式
完全随机缺失MCAR
随机缺失MAR
非随机缺失NMAR
缺失值处理
配对删除
简单抽样填补
均值/中位数/众数填补
回归填补,多重插补
异常检测outlierTest离群点,孤立点
正态分布3倍标准差原则
多元正态马氏距离
参数估计(正态分布均值和标准差估计
点估计point estimation
矩估计μ^,σ^
极大似然估计μ*,σ2*
稳健估计(M估计,R估计)
Bootstrap估计在原始数据的范围内做有放回抽样,预估参数的一些性质。
估计的优良性准则
平方和sum of squareSS
均方mean squareMS
无偏估计E(mean)=μ ,
E(S2)=σ2(S2为样本方差)
均方误差准则MSE(估计量θ)=E(估计量θ-θ)
区间估计interval estimation
置信水平(1-α)confidence level
置信区间confidence interval,CI
假设检验
单侧检验one-sided test
双侧检验two-sided test
显著性水平(α)significant level犯第一类错误的概率
独立性检验
游程检验Runs Test对二分变量的随机检验
卡方独立性检验chisq test两分类变量
Fisher精确检验fisher test两分类变量
Cochran—Mantel—Haenszel卡方检验mantelhaen test两个名义变量在第三个变量的每一层中都是条件独立的
相关性
二维列联表的phi系数、列联系数和Cramer’s V系数。分类变量相关性度量
协方差矩阵Covariancecov=mean((X-mean_X)*(Y-mean_Y))
相关系数矩阵CorrelationCoefficientcov/sqrt(var_X*Var_Y)
person线性相关(正态连续变量)
spearman秩相关(分级定序变量之间的相关程度)
kendall秩相关
方差齐性检验
卡方检验chisq.test单个正态总体的方差检验:χ2检验(H0: σ2=σ02)
F检验两个正态总体方差比:F检验(H0: σ12=σ22)
bartlett.test
fligner.test
Brown-Forsythe
总体分布类型的拟合度检验
正态分布检验shapiro.test
F(n,m)分布Kolmogorov-Smirnov(K-S)
二项分布检验Binomial Test
总体均值检验
两样本(连续变量)t检验独立或配对样本
两样本(有序分类)Mann-Whitney U检验两样本独立
Wilcoxon秩和检验两样本独立
Wilcoxon秩和检验配对样本
Walsh检验配对样本
两样本(分类变量)Kolmogorov双样本单侧检验两样本独立
多样本(连续变量)方差分析独立或相关
多样本(有序分类)Kruskal-Walls检验多样本独立
推广的Mann-Whitney检验多样本独立
Jonckneere检验多样本独立
多样本(无序分类)Friedman检验多样本相关

方差分析

多样本均值比较( H 0 : μ 1 = μ 2 = … = μ n H_0: μ_1=μ_2=…=μ_n H0:μ1=μ2==μn)
方差分析主要用途:
①均数差别的显著性检验
②分离各有关因素并估计其对总变异的作用
③分析因素间的交互作用
④方差齐性检验

回归(regression)

线性模型

Y = β X + e r r o r Y=βX+error Y=βX+error (OLS最小二乘法,使ESS最小值)

Gauss-Markov假设 e i   N ( 0 , σ 2 ) e_i ~ N(0, σ^2) ei N(0,σ2)
(1) v a r ( e ) = σ 2 var(e)= σ^2 var(e)=σ2 , 误差方差=样本方差
(2) c o v ( e i , e j ) = 0 ( i ≠ j ) cov( e_i ,e_j )=0 (i ≠ j) cov(ei,ej)=0(i=j) , 误差独立性

回归方程的显著性检验 ( H 0 : β i = 0 H_0: β_i=0 H0:βi=0)t检验和F检验
回归平方和Residual Sum of Squares
残差平方和Explained Sum of Squares
总平方和Total Sum of Squares
判定系数
自由度degree of freedom
平方和sum of square
均方mean square
F检验
方差源SSdf
回归RSS1
误差ESSn-2
总和TSSn-1

广义线性模型

广义加法模型:扩展广义线性模型,以纳入任意平滑的函数。这意味着你可以自定义函数y = f(x)。
惩罚线性模型:对惩罚复杂模型的距离添加惩罚项。这往往会使来自相同群体的新数据集预测的更好。
稳健的线性模型:对异常值的存在不那么敏感。

  • 回归诊断
    正态检验(shapiro):自变量多重共线性kappa系数(kappa)
    线性模型假设的综合验证:若sqrt(vif)>2,存在多重共线性
  • 异常值
    离群点(outlierTest)
    高杠杆值点(帽子统计量)
    强影响点
  • 改进措施
    删除观测点
    变量变换
    正态变换
    线性变换
    增删变量
  • 模型选择
    逐步回归(step/stepAIC)
    全子集回归(regsubsets)
  • 交叉验证
    通过交叉验证法,我们便可以评价模型的泛化能力。
    在k重交叉验证中,样本被分为k个子样本,轮流将k–1个子样本组合作为训练集,另外1个子样本作为保留集。这样会获得k个预测方程,记录k个保留样本的预测表现结果,然后求其平均值。
  • 相对权重(relative weight)

分类

分类算法备注
线性判别Fisher
距离判别mahalanobis
贝叶斯分类器bayes
逻辑回归
决策树
ID3
C4.5
C5.0
Information Gain
Information Gain Rate
CARTGini Index
条件推断树显著性检验
随机森林random forest
最近邻算法KNN
支持向量机SVM
神经网络NN
卷积神经网络 CNN空间数据
RNN时序数据

聚类

层次聚类法
single最短距离法
complete最长距离法
median中间距离法
mcquitty相似法
average类平均法
centroid重心法
ward离差平方和法
划分法
k-means连续变量
K-modes分类变量
k-prototype混合变量
PAM
clarans
密度算法
DBSCAN
OPTICS
DENCLUE
距离
euclidean欧几里德距离
maximum切比雪夫距离
manhattan绝对值距离
canberraLance 距离
minkowski明科夫斯基距离
binary二分类距离
one-hot

文本分析

文本分析常见三大距离——cosine/jaccard/Euclidean

  1. Euclidean,欧氏距离
  2. cosine,夹角余弦,机器学习中借用这一概念来衡量样本向量之间的差异。
  3. jaccard,杰卡德相似系数,两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。
  4. Relaxed Word Mover’s Distance(RWMD)文本分析相似性距离

时间序列

  1. 指数预测模型(Holt-Winters指数平滑)
    Y ( t ) = T r e n d ( t ) + S e a s o n a l ( t ) + I r r e g u l a r ( t ) Y(t)=Trend(t)+Seasonal(t)+Irregular(t) Y(t)=Trend(t)+Seasonal(t)+Irregular(t)
  2. ARIMA预测模型:由最近的真实值和最近的观测误差组成的线性函数
    滞后阶数(lag),自相关(ACF),偏自相关(PACF),差分(diff),
    平稳性:adf.test验证平稳性,通过diff或Box-Cox变换平稳
    残差的自相关检验:Box test
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值