基本数学概念

期望值:在概率论和统计学中,期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是指在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。

https://baike.baidu.com/item/期望值

方差:

https://baike.baidu.com/item/方差/3108412?fr=aladdin

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
在这里插入图片描述
在这里插入图片描述
https://baike.baidu.com/item/正态分布/829892?fr=aladdin

在这里插入图片描述
https://help.aliyun.com/document_detail/42715.html?spm=a2c4g.11186623.2.59.354618c0IV9hxX#特征离散

在这里插入图片描述

百分位数:

https://baike.baidu.com/item/百分位数/10064171?fr=aladdin

皮尔森相关系数:

https://baike.baidu.com/item/皮尔森相关系数/4222137?fr=aladdin
皮尔森相关系数 也成为皮尔森积矩相关系数
是一种线性相关系数,是用来反应两个变量线性相关程度的统计变量,相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱
的程度。r的绝对值越大表明相关性越强。

离散值特征分析统计离散特征的分布。包括gini,entropy,gini gain,infomation gain,infomation gain ratio等指标。其中计算每个离散值对应的gini,entropy,计算单列对应的gini gain,infomation gain,infomation gain ratio。

T检验单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。T检验的前提是样本总体服从正态分布。

卡方拟合性检验卡方拟合性检验是检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致,其零假设是观测次数与理论次数之间无差异。

经验概率密度图经验分布是当无法得到精确的参数分布时,需要从数据中估计概率分布从而得到非参数分布。算法中采用内核分布估计样本数据的概率密度,和直方图类似都是产生函数描述样本数据的分布,区别是内核分布叠加各部分的贡献而产生连续平滑的分布曲线,而直方图是离散地描述,采用内核分布时,非样本的数据点概率密度并非0,而是各样本抽样点在某种内核分布下的概率密度加权叠加,在这版实现中,内核分布固定采用高斯分布。

正态检验正态性检验是检验观测值是否服从正态分布,本组件由三种检验方法组成,包括Anderson-Darling Test(详见wiki),Kolmogorov-Smirnov Test(详见wiki),以及QQ图(详见wiki),用户可以自选某一种或多种检验方法。算法说明:原假设H0表示观测值服从正态分布,H1表示观测值不服从正态分布。KS的p值计算方法采用渐进计算KS分布的CDF,无论样本量多大都采用该方法,详见wiki。QQ图在样本量大于1000时,会采样进行计算并画图输出,因此图中的数据点不一定覆盖所有样本。

洛伦兹曲线洛伦兹曲线研究的是国民收入在国民之间的分配问题。为了研究国民收入在国民之间的分配问题,美国统计学家 M.O.洛伦兹(Max Otto Lorenz,1876- 1959)1907年提出了著名的洛伦兹曲线。意大利经济学家基尼在此基础上定义了基尼系数。画一个矩形,矩形的高衡量社会财富的百分比,将之分为N等份,每一等分为1/N的社会总财富。在矩形的长上,将所有家庭从最贫者到最富者自左向右排列,也分为N等分,第一个等份代表收入最低的1/N的家庭。在这个矩形中,将每1/N的家庭所有拥有的财富的占比累积起来,并将相应的点画在图中,便得到了一条曲线就是洛伦兹曲线。

混淆矩阵
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。
[1]
在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。

https://baike.baidu.com/item/混淆矩阵/10087822?fr=aladdin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值