机器学习基础概念

记录一些常见的机器学习基础概念。

常见的距离算法

  1. 欧几里得距离(Euclidean Distance)
    \[ \sqrt{\sum_{i=1}^N{(x_i-y_i)}^2} \]
    标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差,然后计算欧式距离

  2. 马哈拉诺比斯距离(Mahalanobis Distance)
    若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离;如果去掉马氏距离中的协方差矩阵,就退化为欧氏距离。欧式距离就好比一个参照值,它表征的是当所有类别等概率出现的情况下,类别之间的距离;当类别先验概率并不相等时,马氏距离中引入的协方差参数(表征的是点的稀密程度)来平衡两个类别的概率。

  3. 曼哈顿距离(Manhattan Distance)
    \[ \sum_{k=1}^n{|x_{1k}-x_{2k}|} \]

  4. 海明距离(Hamming distance)
    定义:在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。场景:在海量物品的相似度计算中可用simHash对物品压缩成字符串,然后使用海明距离计算物品间的距离

协方差与相关系数

  • 协方差表示的是两个变量的总体的误差,范围负无穷到正无穷。
    \[ cov(X,Y)=E[(X-μ_x)(Y-μ_y)] \]
    它反映了两个变量远离均值的过程是同方向变化还是反方向变化,是正相关还是负相关。协方差数值越大,相关程度越高。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

  • 相关系数用来度量两个变量间的线性关系。范围-1到+1。
    \[ ρ=\frac{cov{(X,Y)}}{σ_X σ_Y} \]
    用X、Y的协方差除以X的标准差和Y的标准差。 可以将相关系数看成一种特殊的协方差,是一种剔除了两个变量量纲影响、标准化后的特殊协方差,它消除了两个变量变化幅度的影响,而只是单纯反应变量间变化的相似程度。
    (即,标准化后的两个数据的相关系数等于其协方差)

卡方检验

用在某个变量(或特征)值是不是和应变量有显著关系。
根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题。
\[ \chi^2=\sum\frac{(A-T)^2}{T} \]

其中:A是实际值,T为理论值
我们需要查询卡方分布的临界值表,将计算的值与临界值比较。
查询临界值就需要知道自由度
自由度V=(行数-1)*(列数-1);对四格表,自由度V = 1
当P小于等于0.05(置信度95%),认为变量不相关
若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。

熵总结

自信息又称信息量。信息量的度量就等于不确定性的多少。
对于已发生的事件\(i\),其所提供的信息量为:
\[ I(p_i)=-\log(p_i) \]

信息熵

信息熵代表一个分布的信息量,或者编码的平均长度。
信息熵用来度量一个事件可能具有多个状态下的信息量,也可以认为是信息量关于事件概率分布的期望值:
\[ H(X)=-\sum_{i=1}^n p(x_i)\log{p(x_i)} \]
随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大。
将一维随机变量分布推广到多维随机变量分布,则其 联合熵 (Joint entropy) 为:

\[ H(X,Y)=-\sum_{i=1}^n\sum_{j=1}^m{p(x_i,y_j)\log{p(x_i,y_j)}} \]

条件熵

条件熵 \(H(Y|X)\)表示在已知随机变量\(X\)的条件下随机变量\(Y\)的不确定性。条件熵 \(H(Y|X)\)定义为X给定条件下\(Y\)的条件概率分布的熵对X的数学期望:
\[ H(Y|X)=\sum_xp(x)H(Y|X=x)=-\sum_{x,y}p(x,y)\log⁡{p(y|x)} \]
条件熵\(H(Y|X)\)相当于联合熵减去单独的熵\(H(X)\)

相对熵 (Relative entropy)

也称 KL散度 (Kullback–Leibler divergence) 。相对熵可以用来衡量两个概率分布之间的差异。
设 p(x)、q(x) 是 离散随机变量 X 中取值的两个概率分布,则 p 对q的相对熵是:
\[ D_{KL}(p||q)=\sum_x p(x) \log{⁡\frac{p(x)}{q(x)}} \]
性质:

  1. 如果 p(x)和 q(x)两个分布相同,那么相对熵等于0
  2. 相对熵具有不对称性
  3. ≥0 (利用Jensen不等式)

交叉熵 (Cross entropy)

交叉熵可以来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。
交叉熵本质上可以看成,用一个猜测的分布的编码方式去编码其真实的分布,得到的平均编码长度或者信息量。
\[ H(p,q)=\sum_x p(x) \log{⁡\frac{1}{q(x)}}=-\sum_x p(x) \log{⁡{q(x)}} \]
所以有:
\[ D_{KL}(p||q)=H(p,q)-H(p) \]
当用非真实分布q(x)得到的平均码长比真实分布p(x)得到的平均码长多出的比特数就是相对熵。
当H(p)为常量时(在机器学习中,训练数据分布是固定的),最小化相对熵等价于最小化交叉熵;H(p,q)也等价于最大化似然估计.

交叉熵是指用分布q来表示本来分布p的平均编码长度。可以用来计算学习模型分布与训练分布之间的差异。

Note:
在机器学习中,我们需要评估label和predicts之间的差距,使用KL散度刚刚好,即\(DKL(y||\hat{y})\),由于KL散度中的一部分\(−H(y)\)不变,故在优化过程中,只需要关注交叉熵就可以了。 所以一般在机器学习中直接用用交叉熵做loss,评估模型。

互信息(信息增益)

互信息就是一个联合分布中的两个信息的纠缠程度/或者叫相互影响那部分的信息量.其衡量的是两个随机变量之间的相关性,即一个随机变量中包含的关于另一个随机变量的信息量。
\[ I(X,Y)=H(X)+H(Y)-H(X,Y) \\ I(X,Y)=H(Y)-H(Y|X) \]
决策树中的信息增益就是互信息,决策树是采用的上面第二种计算方法,即把分类的不同结果看成不同随机事件Y,然后把当前选择的特征看成X,则信息增益就是当前Y的信息熵减去已知X情况下的信息熵。

置信区间

置信区间不能用贝叶斯学派的概率来描述,它属于频率学派的范畴。真值要么在,要么不在。由于在频率学派当中,真值是一个常数,而非随机变量(后者是贝叶斯学派),所以我们不对真值做概率描述。比如,95%置信区间,并不是真值在这个区间内的概率是95%,而应该为100次随机抽样中构造的100个区间如果95次包含了参数真值,那么置信度为95%。

转载于:https://www.cnblogs.com/hellojamest/p/10907131.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值