机器学习笔记:各种范数及各类距离

各种范数和距离有时记不清楚,简单做个笔记。

为什么把范数和距离写一块呢,因为一些距离就是通过范数定义的。参考《机器学习:算法原理与编程实践》一书。

一、范数。

这里主要指向量范数||x||,满足非负性,齐次性,三角不等式。

0. L0范数指向量x中非0的元素的个数。

1. L1范数:指向量x中各个元素绝对值之和。

                              \large \left \| \boldsymbol{x} \right \|_{1}=\sum _i\left | x_{i} \right |                    

2. L2范数:为向量x的各个元素平方和再开方。L2范数又称Euclidean范数或Frobenius范数。

                              \large \left \| \boldsymbol{x} \right \|_{2}=\sqrt{\sum _ix_{i}^{2}}                    

3. 无穷范数:为向量x各个元素绝对值最大的那个元素。

    直接定义为

                            \large \left \| \boldsymbol{x} \right \|_{\infty }=\lim_{k \to \infty }\left ( \sum_{i=1}^{n}\left | x_i \right |^k \right )^{\frac{1}{k}}                    

    对公式通过极限推导可得结论:

                            \large \left \| \boldsymbol{x} \right \|_\infty =max(\left | x_i \right |)                    

4. Lp范数:为向量x的各个元素绝对值p次方和的1/p次方。

    为范数的一般推广,p取0,1,2时即对应L0,L1,L2范数。

                            L_p=\sqrt[p]{\sum_{i=1}^{n}x_{i}^{p}}                    

二、各类距离。

1.曼哈顿距离

    即城市街区距离,为两点向量差的L1范数。两个n维向量A(x11,x12,...,x1n)和B(x21,x22,...,x2n)间的曼哈顿距离为:

                             \large d_{12}=\sum_{k=1}^{n}\left | x_{1k}-x_{2k} \right |                    

2. 欧氏距离

    即两点间的空间距离,为两点向量差的L2范数。两个n维向量A(x11,x12,...,x1n)和B(x21,x22,...,x2n)间的欧氏距离为:

                            \large d_{12}=\sqrt{\sum_{k=1}^{n}(x_{1k}-x_{2k})^2}                    

3.切比雪夫距离

    即最大的维度内距离,为两点向量差的无穷范数。两个n维向量A(x11,x12,...,x1n)和B(x21,x22,...,x2n)间的切比雪夫距离为:

                             \large d_{12}=\max_i(\left | x_{1i}-x_{2i} \right |)                    

    或另一种等价形式:

                             \large d_{12}=\lim_{k \to \infty }(\sum_{i=1}^{n}|x_{1i}-x_{2i}|^k)^{\frac{1}{k}}                   

4. 闵可夫斯基距离

    相对于Lp范数,是一组距离的定义。两个n维向量A(x11,x12,...,x1n)和B(x21,x22,...,x2n)间的闵可夫斯基距离的定义为:

                                \large d_{12}=\sqrt[p]{\sum_{k=1}^{n}(x_{1k}-x_{2k})^p}                    

    当p=1时,就是曼哈顿距离;

    当p=2时,就是欧氏距离;

    当p->无穷时,就是切比雪夫距离。

5. 汉明距离

    汉明距离定义:两个等长字符串s1和s2之间的汉明距离定义为将其中一个变为另外一个所需要的最小替换次数。

如字符串“1111”与“1001”之间的汉明距离为2。也就是指两个字符串的接近程度。

    应用:信息编码(为了增强容错性,应使编码间的最小汉明距离尽可能大)。

6. 杰卡德距离

    a.杰卡德相似系数:两个集合A和B的交集在A、B的并集中所占的比例,是衡量两个集合相似度的一种指标,用符号J(A,B)表示。

                        \large J(A,B)=\frac{|A\cap B|}{|A\cup B|}                    

    b.杰卡德距离:为两个集合中不同的元素占所有元素的比例,用来衡量两个集合的区分度。

                    

 

 

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

禺垣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值