机器学习:基本数学概念

机器学习:基本概念

鉴于机器学习和深度学习都是离散的数据,所以所有的数学公式基本上都按照离散计算。(来自于百度百科)

1、均值
样本均值描述的是集合的中间点、平均值、均值的信息是有限的,有时候甚至是完全没有参考意义的。
在这里插入图片描述
2、标准差
标准差描述的是样本集合中的各个样本点到均值的距离的平均值。以集合[2,8,12,18]和集合[7,9,11,13]为例,两者的均值都是10,但显然后都较为集中,故其标准差小一些。所以标准差描述的是集合中样品分布的聚合程度。
在这里插入图片描述
3、方差
方差是标准差的平方。

4、期望
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
期望是对一组概率事件在实验前根据概率分布预测出的样本的平均值,是一个概率论的概念,而均值是该概率事件发生后根据实际结果统计的样本的平均值,是一个统计概念。
。一句话概况:期望就是平均数随样本趋于无穷的极限,可用来估计模型的均值。

5、协方差
协方差用于衡量两个变量的总体误差。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望,那么两个变量之间的协方差就是负值。
在这里插入图片描述在这里插入图片描述
6、欧式距离
欧氏距离也称欧几里得度量、欧几里得距离,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维空间中的欧氏距离就是两点之间的直线段距离。在多维向量中欧式距离的计算定义为两个他们向量对应元素差的平方和再开方。
在这里插入图片描述
欧氏距离在解决多元数据的分析问题时,存在一定的问题,欧氏距离将样本的不同属性无差别对待,实际问题中往往样本中每个属性的权重因子是不一样的,比如衡量一所房子的好坏,对于有子女需要上学的人,会认为学位更为重要,所占权重应该大一些,而有些家庭人口比较多的人考虑到人均面积,会认为户型、房间数量所占权重应该大一些等等,所以在这种情况欧氏距离各个元素一刀切的对待方式来评价一个现实问题往往是不可取的。

7、马氏(Mahalanobis)距离
马氏距离是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis) 提出的,表示数据所在的空间的协方差的度量,或者认为是把数据所在空间进行归一化处理之后再进行的度量。它是一种有效的计算两个未知样本集的相似度的方法。
在这里插入图片描述
马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。马氏距离是多维空间中两点相似性的变量往往作为聚类或者分类算法的基础。

强烈推荐这篇博文讲述马氏距离
https://blog.csdn.net/xjb329859013/article/details/102884657?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158736303019725247620555%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=158736303019725247620555&biz_id=0&utm_source=distribute.pc_search_result.none-task-blog-2allbaidu_landing_v2~default-3

参考链接:https://blog.csdn.net/dcrmg/article/details/53013451

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值