机器学习:基本概念
鉴于机器学习和深度学习都是离散的数据,所以所有的数学公式基本上都按照离散计算。(来自于百度百科)
1、均值
样本均值描述的是集合的中间点、平均值、均值的信息是有限的,有时候甚至是完全没有参考意义的。
2、标准差
标准差描述的是样本集合中的各个样本点到均值的距离的平均值。以集合[2,8,12,18]和集合[7,9,11,13]为例,两者的均值都是10,但显然后都较为集中,故其标准差小一些。所以标准差描述的是集合中样品分布的聚合程度。
3、方差
方差是标准差的平方。
4、期望
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
期望是对一组概率事件在实验前根据概率分布预测出的样本的平均值,是一个概率论的概念,而均值是该概率事件发生后根据实际结果统计的样本的平均值,是一个统计概念。
一句话概况:期望就是平均数随样本趋于无穷的极限,可用来估计模型的均值。
5、协方差
协方差用于衡量两个变量的总体误差。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望,那么两个变量之间的协方差就是负值。
6、欧式距离
欧氏距离也称欧几里得度量、欧几里得距离,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维空间中的欧氏距离就是两点之间的直线段距离。在多维向量中欧式距离的计算定义为两个他们向量对应元素差的平方和再开方。
欧氏距离在解决多元数据的分析问题时,存在一定的问题,欧氏距离将样本的不同属性无差别对待,实际问题中往往样本中每个属性的权重因子是不一样的,比如衡量一所房子的好坏,对于有子女需要上学的人,会认为学位更为重要,所占权重应该大一些,而有些家庭人口比较多的人考虑到人均面积,会认为户型、房间数量所占权重应该大一些等等,所以在这种情况欧氏距离各个元素一刀切的对待方式来评价一个现实问题往往是不可取的。
7、马氏(Mahalanobis)距离
马氏距离是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis) 提出的,表示数据所在的空间的协方差的度量,或者认为是把数据所在空间进行归一化处理之后再进行的度量。它是一种有效的计算两个未知样本集的相似度的方法。
马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。马氏距离是多维空间中两点相似性的变量,往往作为聚类或者分类算法的基础。