线性代数(1)

1  范数

L1范数:如果只允许行进方向与空间轴平行,从原点到矢量的距离,在L1范数的距离就是你行进的距离。

在这个2D空间中,您可以通过沿x轴行进3个单位然后沿y轴平行移动4个单位(如图所示)到达矢量(3,4)。或者您可以先沿y轴行进4个单位,然后沿x轴行进3个单位。在任何一种情况下,您将共旅行7个单位。

L2范数:也称为欧几里德距离。L2 范数是向量距原点的最短距离,如下图中的红色路径所示。

这个距离是用毕达哥拉斯定理计算的。它是 3和4的平方根,等于5。

但是,范数如何用于找出预测值与真实值之间的差异?假设预测值存储在向量P中,并且真实值存储在向量E中。P-E是它们之间的差异。P-E的范数就是预测的总损失。

2  正则化

正则化是数据科学中非常重要的概念。它是用来防止模型过拟合的方法。正则化实际上是规范化的另一种应用。

如果模型在训练时发生了过拟合,模型就会对新数据的预测结果不好,因为模型甚至学习了训练数据中的噪声。它无法预测之前没有训练过的数据。下面的图片揭示了这个思想:

正则化通过向损失函数添加权重向量来惩罚过于复杂的模型。由于我们希望最小化成本函数,因此需要最小化此范数。正则化的结果是权重向量中无关紧要的部分变为零,防止预测函数过于复杂。

3  协方差矩阵

双变量分析是数据探索中的重要一步。我们想研究变量对之间的关系。协方差或相关性是用于研究两个连续变量之间关系的度量。

协方差表示变量之间线性关系的方向。正协方差表示一个变量的增加或减少在另一个变量中同样增加或减少。负协方差表明一个变量的增加或减少同时另一个变量与它相反。

另一方面,相关性是协方差的标准化值。 相关性值告诉我们线性关系的强度和方向,范围从-1到1。

协方差矩阵有一个非常简洁的表达式:

其中X是包含所有数字特征的标准化数据矩阵。

以上转载于https://zhuanlan.zhihu.com/p/78397050

4  

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值