常用术语概念汇总

 基本术语概念须知  
英文名中文名含义备注 
Bernoulli伯努利分布实验只有两种结果,成功(1)或失败(0),成功的概率为p,失败的概率为1-p,概率质量函数为P(X=k)=p^k*(1-p)^(1-k), k=0,1 。期望为p ,方差为p(1-p) 离散概率分布
Binomial Distribute二项分布概率质量函数P(X=k)=C(n,k)*p^k*(1-p)^(n-k)。期望为np,方差为 np(1-p) 
 负二项分布期望为r/p,方差为r(1-p)/p^2 
 几何分布期望为1/p,方差为(1-p)/P^2 
Poission泊松分布描述单位时间、单位长度、单位面积、单位体积中发生某一时间的次数.概率质量函数P(X=k)。服从泊松分布的随机变量其期望和方差都等于参数lambda 
 指数分布连续型随机变量的概率密度函数服从指数分布 连续概率分布
 正态分布概率密度函数也称高斯分布
 Gaussian with zero mean and unit variance.高斯分布高斯分布平均值是0,方差是1 
 标准正态分布当期望为0,方差为1时,称为标准正态分布,记作N(0,1)正态分布的概率密度函数关于期望u对称,并且在u处达到最大值,在正负无穷处取值为0
Uniform distribution均匀分布落在区间的任意子区间上的可能性都是相同的。概率密度函数、累积分布函数、期望、方差 
 连续分布变量可取连续值,实验结果无限的  
 离散分布实验结果是有限的  
 伽马分布 gamma 
 冻结分布   
 形态变量/形态参数 scale,moments 
hypergeom超几何分布 hypergeom 
 冻结分布   
chi-square distribution, χ²-distribution卡方分布   
Student's t-distributionT分布常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布,亦称u分布。
由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为服从自由度为(n-1)的t分布。样本量n
用途:用于根据小样本来(<=30)估计呈正态分布且方差未知的总体的均值。T的概率密度函数的形状类似于标准正态分布(?=0, σ2=1),但更低更宽。随着自由度 v 的增加,则越来越接近均值为0方差为1的正态分布。关联并区分于标准正态分布
 F分布设X、Y为两个独立的随机变量,X服从自由度为k1的卡方分布,Y服从自由度为k2的卡方分布,F-分布是这两个卡方分布变量X、Y除以各自的自由度后的比率的分布  
Expection期望离散型随机变量X的期望是X所有可能取值的一个加权平均,每个值的权重就是X取该值的概率,E[X]=SUM(xi*P(xi));
连续型随机变量X的期望是E(X)=积分(xf(x)),f(x)是概率密度函数;
  
variance方差是用来度量随机变量和其数学期望之间偏离程度的量。D(X)=Var(X)=E{[X-E(X)]^2},即X与其期望的距离的期望,公式推导 D(X) =E(X^2) - (E(X))^2,即平方的期望减去期望的平方D(X)=Var(X)
随机变量的方差是刻画随机变量相对于期望值的散部程度的一个度量。
 
standard deviation标准差sqrt(D(X))=sigma(X),方差的平方根  
deviation偏差   
mean均值   
median中位数   
 众数   
 分位数   
 大数定理说明了,随机事件随着试验次数的增加,其均值收敛到公共的期望值掷硬币实验 
 中央极限定理独立同分布的随机变量实验,也可以标准化,即其概率密度函数是正态分布的。掷硬币实验的延伸 
 简单随机抽样分为有放回和无放回  
 等距抽样   
 分层抽样将总体分为多个不相交的层级,按照一定的比例在各层级之间抽样。要求层级间的差异较大,层内差异较小比如男女、各年龄层、学校年级的人群抽样 
 整体抽样/系统抽样把总样本N均分成n段,每段取相同位置的个体做样本比如车间流水线上的样品抽样 
Random variates随机变量   
continuous random variables连续型随机变量随机变量的取值是无限不可数的,这类变量被称为连续型随机变量。rv_continuous 
 discrete random variables离散型随机变量一个随机变量最多有可数多个可能取值,有限或者无限可数个。rv_discrete 
probability density function概率密度函数对连续性随机变量,描述随机变量的输出值,在某个确定的取值点附近的可能性的函数, f(t) = P{X=t}。
对于连续型变量的累积分布函数F(X),它们之间的关系是 F(x) = 积分[-infinit,x]f(t)dt. 即CDF是PDF的积分。
PDF注意PDF和PMF的区别
probability mass function概率质量函数对离散随机变量 在各个特定取值上的概率称为其概率质量函数,p(a) = P{X=a}。每个竖条区域称为一个bin。SUM(P(xi),i=1,2,3...)=1PMF
Cumulative distribution function累计分布函数
(简称分布函数)
随机变量的累积分布函数,它是概率密度函数的积分。即对任一给定的x,该随机变量小于等于x的概率。函数为F(x)=P{X<=x}。递增函数。
对于连续型随机变量的累积分布函数,则是其概率密度函数的积分。
CDF 
Percent point function分位数函数累积分布函数的反函数。自变量是百分等级,函数值是该半分等级在分布中对应的值。PPF 
 概率密度函数估计方法给定样本点集合求解随机变量的分布密度函数问题,有参数估计和非参数估计两种。参数估计又可分为参数回归分析和参数判别分析。参数回归分析先假定数据分布符合某种特定的形态,如线性、指数等,然后确定回归模型的未知参数。极大似然估计方法和贝叶斯估计方法也是常见的参数估计法。非参数估计不利用有关数据分布的先验知识,对数据分布不附加任何假定,从数据样本本身出发研究数据分布特征的方法,方法有直方图法、核概率密度估计法。 
Kernel density estimation核密度估计方法概率论中用来估计未知的密度函数的方法,属于非参数检验方法之一。常用的核函数,均匀核函数,三角核函数,伽玛核函数,高斯核函数。kde
核密度估计有多种内核,不光滑的和光滑的,光滑内核(高斯核密度估计)使用较多。核算法和带宽bandwidth选择会影响密度估计。
 
Survival function残存函数 sf 
Inverse survival function残存逆函数 isf 
Non-central moment of order n分布的非中心矩 moment 
 拟合对一组随机采样进行拟合,找出最合适取样数据的概率密度函数的系数。fit 
 非参数统计是一种不要求变量值为某种特定分布和不依赖某种特定理论的统计方法。或者是在不了解总体分布及其全部参数的情况下的统计方法。 
 参数检验总体分布服从正态分布或总体分布已知条件下进行的统计检验就是参数检验  
 非参数检验总体分布不要求服从正态分布或总体分布情况不明时,用来检验数据资料是否来自同一个总体的统计检验方法  
Parameter Estimation参数估计用样本统计量去估计总体参数的方法比如用样本均值估计总体均值,用样本方差估计总体方差 
Estimator估计量估计量/推算式用于估计总体参数的统计量 
Estimated Value估计值根据具体样本计算得出的估计量数值  
Point Estimate点估计用样本统计量的某个取值直接作为总体参数的估计值也叫做矩估计 
Interval Estimate区间估计在点估计的基础上,给出总体参数估计的一个区间范围,并且给出样本统计量与总体参数的接近程度一个概率度量。  
 矩估计法用样本矩估计总体矩,用样本矩的相应函数来估计总体矩的函数。理论依据大数定理,如果总体X的k阶矩存在,则样本的k阶矩以概率收敛到总体的k阶矩,样本矩的连续函数收敛到总体矩的连续函数 
Maximum Likelihood Estimate
(MLE)
极大似然估计 mle 
unbiased estimator无偏估计估计量的数学期望等于被估计参数的真实值注意如何根据样本的期望、均值、方差估计总体的 
biased estimator有偏估计上述的否则情况 
Confidence Interval置信区间由样本统计量所构造的总体参数的估计区间  
 置信度置信区间中所包含的总体参数真实值的次数之比也称作置信水平 
 常用置信水平临界值置信水平90%,临界值1.645
置信水平95%,临界值1.96
置信水平99%,临界值2.58
  
Paired Sample配对样本指一个样本中的数据与另一个样本中的数据是相互对应的,  
P-valueP值当原假设为真时所得到的样本观察结果出现的概率P值越小,则说明原假设发生的可能性越低。通常需要P值小于0.05才能有足够的把握拒绝原假设。 
 假设检验基本思想是小概率原理,就是认为小概率事件在一次实验中几乎不可能发生。即如果对总体的某个假设时真实的,那么不能支持这个假设的事件在一次实验中时几乎不可能发生的。要是在一次实验中该事件发生了,那么就有理由怀疑这个假设的真实性。 
 显著性检验给定显著水平时的第一类错误检验  
 z统计量   
 t统计量   
 Z检验   
 T检验小样本、总体方差未知时根据T分布建立的总体均值的假设检验  
normal test正态分布检验Z-score含义? P值  
Kolmogorov-Smirnov testK检验检验拟合度的kolmogorov-Smirnov检验ktest 
Pearson's Chi-Square Statistic卡方统计量定义为各项实际观测数值与理论分布数值之差的平方除以理论数值,然后再求和用于检验实际分布与理论分布配合程度的统计量 
 卡方检验   
 偏态系数   
 峰态系数   
Standardization标准化将样本处理成平均值是0,方差是1的高斯分布  
 一维插值插值函数经过样本点  
 拉格朗日插值法拉格朗日插值多项式  
 分段插值法   
 样条插值法使用一种名为样条的特殊分段多项式进行插值的形式。样条插值可以使用低阶多项式样条实现较小的插值误差,可以避免龙格现象。  
 龙格现象随着样点增加,高次插值带来误差的震动现象称为龙格现象  
integrate积分   
 Ordinary Differential Equations常微分方程 ODE 
 Partial Differential Equations 偏微分方程 PDE 
Bias模型的偏差用所有可能的训练数据集训练出的所有模型的输出的平均值” 与 “真实模型”的输出值之间的差异模型和“真相”的差异,反应模型本身的拟合能力 
Variance模型的方差“不同的训练数据集训练出的模型”的输出值之间的差异。反应模型的稳定性,模型的每次输出结果与输出期望间的误差。
打靶例子理解Bias 和Variance
 
Noise噪声噪声点  
Overfitting过拟合对训练样本拟合很好,但对于测试样本拟合很差高方差问题 
Underfitting欠拟合训练样本太少,模型不能刻画数据分布,在训练集上错误率就很高高偏差问题 
 训练集用来做模型训练的数据集合  
 测试集/验证集用来测试模型误差或准确度的集合  
Cross-Validation交叉验证在使用训练集时就对模型进行衡量,不用建模后才使用测试集衡量模型  
leave-one-out留一交叉验证每次取出1个作为测试集,其他的作为训练集,平均每次测试结果作为泛化误差估计。  
K-fold cross-validationK折交叉验证样本分成K个子样本,K-1个作为训练样本,1个作为测试样本。重复K次,每个样本作为测试集验证一次,平均K次的结果或其他连接方式,得到最终的参数结果。这是模型训练过程解决高方差问题
(K-CV)
 
leave-P-out留P交叉验证同上,每次留P个样本作为训练集合,重复C(N,p)次训练和测试。  
sparse matrix稀疏矩阵在矩阵中,若数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有规律时,则称该矩阵为稀疏矩阵。以下是7种稀疏矩阵这几种稀疏矩阵的区别在于存储的区别,压缩与否,行/列存储来记录矩阵中非0元素存储的位置。
A sparse matrix in COOrdinate formatCOO矩阵存储矩阵中不为0的元素的行号、列号和数值。即行坐标row indices, 列坐标 column indices ,数值values。优点:比较容易转成其他稀疏矩阵存储格式。缺点:不能进行矩阵运算。
标准定义表达式:(即 ijv 的形式)
coo_matrix((data, (i, j)), [shape=(M, N)])
coo_matrix
Compressed Sparse Column matrix CSC矩阵压缩稀疏列式存储的矩阵。
Indices:行坐标
indptr: csc index pointer array,没列第一个非0元素在values中的位置。标准表达式:
csc_matrix((data, indices, indptr), [shape=(M, N)])
csc_matrix
Compressed Sparse Row matrix CSR矩阵压缩稀疏行存储的矩阵。Row offsets , column indices , values.
row offsets:指出了每行元素在values中的开始位置。根据此可以将存储values的数组进行切分,然后按照column indices/列坐标和行坐标将values中的元素 还原到原矩阵。
优点:行切片和+/*/dot运算,但列切片比CSC慢。CSR格式存储非零元素平均使用字节数稳定,常用于读入数据后进行稀疏矩阵计算。
标准定义表达式:
csr_matrix((data, indices, indptr), [shape=(M, N)])
其中data是shape=(1,n)的np.array
csr_matrix
Block Sparse Row matrixBSR矩阵标准定义表达式
 bsr_matrix((data, indices, indptr), [shape=(M, N)])
同CSC/CSR,只不过data是按(n,x)array块存储的,即是shape(m,n,x)维的。
bsr_matrix
Sparse matrix with DIAgonal storageDIA矩阵对角线存储法,按对角线方式存,从左下往右上开始,省略全零的对角线。同一条对角线上的元素放在同一列,存放的行就代表其原来所在的行。
按对角存储的稀疏矩阵
dia_matrix((data, offsets), shape=(M, N))
理解offset,是从对角线开始往上/往下偏移,data是存放的对角线位置元素,中间有0的也要补上,长度都要是一个完全对角线的长度。Offset偏移是0的!
dia_matrix
Dictionary Of Keys based sparse matrix DOK矩阵按位置坐标字典存储的稀疏矩阵
标准定义表达式:
dok_matrix((M,N), [dtype])
dok_matrix
Row-based linked list sparse matrixLIL矩阵 lil_matrix 
dense matrix稠密矩阵 密集矩阵 
 数值积分   
 解析积分   
eigenvalues
(characteristic value)
特征值 eigs 
eigenvectors特征向量 eigs 
singular value decomposition奇异值分解 svd 
ANOVA方差分析   
     
     
     
     
     
     
     
     
k-means clusterK-means聚类   
 层次聚类   
K-dimension treeKD树kd树是对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是是一种二叉树,表示对k维空间的一个划分,构造kd树相当于不断地用垂直于坐标轴的超平面将K维空间切分,构成一系列的K维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。KD树中每个节点是一个向量,和二叉树按照数的大小划分不同的是,KD树每层需要选定向量中的某一维,然后根据这一维按左小右大的方式划分数据。在构建KD树时,关键需要解决2个问题:(1)选择向量的哪一维进行划分;(2)如何划分数据。第一个问题简单的解决方法可以是选择随机选择某一维或按顺序选择,但是更好的方法应该是在数据比较分散的那一维进行划分(分散的程度可以根据方差来衡量)。好的划分方法可以使构建的树比较平衡,可以每次选择中位数来进行划分,这样问题2也得到了解决。 
outliers异常值/离群点   
quantile transforms分位数变换   
monotonic transformations单调变换   
Discretization (otherwise known as quantization or binning)离散化把连续特征分成离散值的过程也被叫做量化或分块 
 K-bins discretizationK-bins 离散化   
Yeo-Johnson transformYeo-Johnson变换变换成高斯分布的一种方式  
Box-Cox transformBox-Cox变换   
 Vector Space Model 向量空间模型   
Normalization归一化将样本处理成单位范数的过程向量空间在文本分类和聚类的应用中常会应用此处理 
Feature binarization特征二值化对数值特征进行阈值化得到布尔值的过程  
Principal component analysis (PCA)主成分分析PCA用于将多变量数据集分解为一组连续的正交分量,以解释最大方差/差异。
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
在scikit-learn中,PCA是一个transformer对象,可以用fit方法在测试集上学习到n个主成分,然后可以将新的数据集映射到这些主成分上。
通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。
 
Incremental principal component analysis (IPCA) 增量PCAIPCA构建一个低阶的数据去逼近样本。所用的内存与输入样本数无关,虽仍需依赖于样本的特征,但却可以更好的控制内存的使用。当需要做主成分分析的数据量过大时替代PCA的方法 
coefficient of determination相关指数R2评价一元多项式回归方程拟合度的高低也叫做决定系数 
 ROC曲线   
 AUC   
 混淆矩阵   
 TPR   
 FPR   
 KS值   
 GINI系数   
precision准确率   
 召回率   
 F值   
Sum of Squared Error
(SSE)
和方差/误差平方和拟合数据和原始数据对应点的误差平方和(点对点的)  
Mean Squared Error
(MSE)
均方差和方差的平均值sklearn.metrics.mean_squared_error() 
Root Mean Squared Error
(RMSE)
根方差/标准差均方差求平方根np.sqrt(sklearn.metrics.mean_squared_error()) 
Mean Absolute Error
(MAE)
平均绝对误差拟合数据和原始数据对应点的绝对差之和取平均值(点对点)sklearn.metrics.mean_absolute_error() 
SUM of Squares of the Regression
(SSR)
回归和方差拟合数据对原始数据平均值的误差平方和(点对线)  
SUM of squares total
(SST)
整体和方差原始数据和其平均值的误差平方和(点对线)  
Coefficient of determination
(R-square)
R2决定系数R-square = SSR / SST,大概说明拟合情况
如果R-square=0,说明SSR=0,那么拟合就是平均值这个直线,拟合太随意了。如果R-square=1,说明SSR=SST,那么SSE=0,即每个点上拟合值和真实值一致,说明有可能过拟合了,这样反而不一定好。
sklearn.metrics.r2_score() 

(Adjusted R-Square)
校准决定系数n是样本量,P是特征量,抵消了样本量的影响,越接近于1说明拟合越好1 - ((1-r2_score) * (n-1) )/(n-p-1) 
 梯度下降法   
learning rate 学习率 每个点的梯度*学习率就是该点改变的步长 
Autoregressive Models
(AR)
自回归模型是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型,它是时间序列中的一种常见形式时间序列的P阶自回归模型AR(P),一般模型是y(t)=a0+a1*y(t-1)+a2*y(t-2)+…+ap*y(t-p)+e,a0是常数项,a1,a2,…ap是模型参数,e是均值为0,方差为sigma的误差项。累加和函数cumsum 
 Yule-Walker方程   
boxplot箱形图箱形图用于显示数据分散情况的图,有5个基本数值决定,即最小值、下四分位数、中位数、上四分位数、最大值。四分位距(interquartile range,IQR)表示下四分位数和上四分位数的间距,即50%的数值都落在了这之间。盒须线(whiskers)是Q1延伸至minmum,Q3延伸至maxmum的两段线。箱形图用于显示数据分散情况,其中minimum和maximum很可能不表示数据集中的最小、最大点,而是由Q1、Q3、IQR决定,而不分布于[minimum,maximum]的点视为离群点,outlier 
分位数图示法(Quantile Quantile Plot) 简称Q-Q图QQ图Q-Q图是一个概率图,用图形的方式比较两个概率分布,把它们的分位数放在一起比较。首先选好分位数间隔。图上的点(x,y)反映出其中一个第二个分布(y坐标)的分位数和与之对应的第一分布(x坐标)的相同分位数。因此,这条线是一条以分位数间隔为参数的曲线。如果两个分布相似,则该Q-Q图趋近于落在y=x线上。如果两分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在y=x线上。Q-Q图可以用来可在分布的位置-尺度范畴上可视化的评估参数。Q-Q图主要用于检验数据分布的相似性。P-P图和Q-Q图的用途完全相同,只是检验方法存在差异。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.
用QQ图还可获得样本偏度和峰度的粗略信息.
 PP图P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图P-P图用于直观地检测样本数据是否符合,某一概率分布
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值