数学理论基础

1向量

向量,也被称为矢量,是数学、物理学和工程学中的基本概念,它指的是同时拥有大小和方向的几何物体,通常以蒜头符号命名,以区别于其他量(例如标量〉。矢量通常被标记为带有箭头的线条,线条的长度用来表示向量的大小,箭头所指的方向则是向量的方向。与向量概念相对的是标量,它只有大小没有方向

1.1相关概念

(1 )反向量:大小相等 方向相反的向量。
(2 )零向盘:始点与终点重合的向量。
(3 )等向量:大小相等且方向相同的向量。
(4)点积:点积也被称作数量积 ,是向量与 量乘积 的结果,点积的值为标量。 倘若向量与 向量是任意向量,则它们的点积计算公式如下:
A·B= IA Blcose
通过上述公式,可以将点积理解为 向量在 向量上的投影大小。其他的向量乘法还包括向量积,它也是向量与向量之间的乘积,不过它的结果依然为向量。

1.2向量的线性相关性

对于 个向量α1 αz ,若存在 个不全为 P1 Pz p3 Pn 使得0在这里插入图片描述
0
则意味着这个向量α1 Uz α3 … an 是线性相关的。同理,若是不存在这样的n个不全为。P1 Pz p3 Pn ’当且仅当Pi=O 时才成立,则可以称这 个向 αz a3 … an 线性无关。线性相关和线性无关的理论是机器学习乃至神经网络的重要基础。

1.3向量的外积

外积 般是指两个向 的张量积,其结果为矩阵。向 的外积可以视为矩阵的克罗内克积的特殊形式对于给定 mX1的列向量u 以及 1Xn的行向 V,两者的外积可以用 表示 且两者的外积结果为m × n 的矩阵。若设定 m的值为4 ,u可以表达为如下形式:在这里插入图片描述
若设定n 值为3 ,贝v的表达形式可以为在这里插入图片描述
在这里插入图片描述
结果如下在这里插入图片描述

1.4向量夹角与余弦相似性

余强相似性,顾名思义就是通过余弦的方式计算相似度。余弦是两个向量的夹角,因此以将需要进行相似性比较的内容视为余弦的两个向 若是两个向量大小方向完全重合,即角为 0。余弦值为1 :同理,若两个向量完全相反,即夹角为 180。,则余弦值为 -1,向b夹角示例如图所示 因此,余弦相似性是基于向 算法 井利用两个向量在方向和大小上的不同,将此种不同转换为余弦值,井将余弦值用作衡量信息差异的标准。在这里插入图片描述
此处的余弦值大小即可表达出两个向量之间的相似度,这也是余弦相似性算法能够进行相似度计算的基本原理,余弦相似性常常用于文本 内容的比较
在这里插入图片描述
上述公式是针对二维向量的计算,在实际工作中,很可能是 维向 的计算,计算公式如下所示在这里插入图片描述

1.5实例:墓于向量夹角的文本相似性分析

向量夹角可以衡量相关向量的相似 基于此可以通过余弦相似性对 部分问题求解。采余强相似性进行相似度分析,可以参考表 -1 中的内 容,通过余弦相似性计算文本之间的相似程度。在这里插入图片描述
由于文本的相似性在于文本中词语之间的相似性, 因此可以将词语在文本中出现的频率初步作为词语在文本中的权值在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(4)形成特征向量。根据特征集计算的词频信息 将词频转换为特征向量,特征向 以特征集为基础,词频为特征集对应词语的权值,因此针对句子 特征向量为“ 2 1 1 1 ”,B的特征向量为“0 1 1 1 "
在这里插入图片描述
通过上述过程,最终计算 余弦值为 0.7 , 可以认为句子“深度神经网络是 种深度学习方法”与“神经网络是一种学习方法”的文本相似度为 0.7
分词处理,将两句的公共部分合并得到公共向量集,由这个公共的向量集计算AB的词频,存在且为公共部分则为1,存在但不是公共部分则为2,不存在则为0,由这个词频形成特征向量,由这两个特征向量计算夹角余弦值,这个余弦值代表两个句子的相似度

矩阵

矩阵乘法

最简单的矩阵乘法是一个常数乘以矩阵,例如常数3 乘以矩阵在这里插入图片描述
在这里插入图片描述
但是在更多深度学习的计算过程中 是矩阵与矩阵相乘 例如矩阵在这里插入图片描述
与矩阵在这里插入图片描述
乘的计算结果如下
在这里插入图片描述
实质上是矩阵的行乘以被乘矩阵的列,在这里插入图片描述
从这个公式可以清晰地看到,被乘结果的矩阵第m 行第n 列的元素值等于第 一个矩阵的m行乘以第 二个矩阵 n列的元素乘积求和。
矩阵乘法可以表示线性方程之间的关系,在这里插入图片描述
矩阵乘积表示在这里插入图片描述

克罗内克积

在这里插入图片描述
克罗内克积表示两个任意矩阵之间的积运算,用符号 在这里插入图片描述
表示在这里插入图片描述
在这里插入图片描述
把B当作整体,A中的各个元素分别与B相乘构成块矩阵
在这里插入图片描述
但是克罗 克积不满足数值乘法 换律,在 般情况下在这里插入图片描述
在这里插入图片描述

导数

概述

导数是微积分中最基本的理论, 个函数在某一个位置的导数表示了该函数在该位置下的变化率。导数实质上是通过极限的方式对函数进行局部的线性逼近。通常用 f(x)’ 表示 f(x)导数, f(x) 在区间内的连续性是函数可导的必要条件。导数的特性如下。
( I )如果某函数的导数在某个取值区间内的值均大于0 ,则函数在当前区间属于单调递增;同理,如果均小于0 ,则函数在当前区间属于单调递减。
(2 )如果函数在当前某值下的导数为 0,左区间是单调递增,右区间是单调递减,则当前函数的当前值为极大值点 :同理, 若左区间是单调递减,右区间是单调递增,则当前函数的前值为极小值点。导数的计算方式相对比较简单,一些常见函数的导数如表 2-2 所示。在这里插入图片描述

一般运算法则

导数的 般运算规则如下
两个函数的和或差的导数均等于两个函数分别求导之后的和或差,公式如下:在这里插入图片描述
两个函数乘积的导数,等于f 函数的导数乘以 g函数 g函数的导数乘以f 数之和,公式如下:在这里插入图片描述
两个函数商 导数 f等于 f函数的导数乘以 g函数减去 g函数的导数乘以f 函数之然后再除g 函数的平方 g 函数不等于 0,公式如下在这里插入图片描述

链式求导法则

在这里插入图片描述

数值计算

误差

在有监督 模型训练过程中会涉及模型的输出值与期望输出值的异,这种 异用误差来友示,井且根据误差不断调整训练过程的参数,最 的目标是整体样本中模型的实际输出结果与期望数据结果的误差尽可能小。
(1)均方差(Mean Squared Error, MSE )。均方差是统计学中较为常见的误差计算方式 它是误差的平方的期望,是衡量平均误差的一种较为简的方法,可以有效地评价数据的 化情况
(2 )标准误差( Standard Error ),也称均方根误差 Root Mean Squared Error 是衡量样本分布的离散度,是样本均值与总体均值的差异。对于一个总体样本 多次抽样 每次 样的火小均相同 ,每 抽样的数据都有 个均值,这些均值的标准 则被称作标准误差。标准误差越小,则样本均值和总体均值越相近,反之越大 标准误差常常用于预测样本数据的有效性或准确性, 当标准误差越小时,则样本均值和总体均值 距越小,当差距 于某值时,样本数据则可代表总体数据情况。标准误差是针对样本统计量而言,是对某个样本统 的标准差,是描述对 的样本统计量抽样分布的离散程度以及衡量对应样本统计量抽样误差大小的尺度
(3 )标准差( Standard Deviation )则是描述样本整体的离散程度 标准 的值越大则说数据分布越广,集中程度较 均值的代表性则越 :反之,若标准 的值越小,则均值的代表性越强.

距离

数值距离的计算是机器学习算法中对分析结果非常重要的衡 标准,是单次抽样的结果。在机器学习算法的应用过程中,常常涉及一些数值计算,总体而言主要集中在两方面是距离计算:另 方面是概率计算 距离和概率是机器学习算法中最为核心的数值,是表达信息异同相似的数值体现 常见的距离计算方式包括欧氏距离、马氏距离、 哈顿距离、切比夫距离、海明距离,等等
欧几里得度量( uclidean Metric ,也称欧氏距离〉 欧氏距离是 个常用的距离定义,指在 维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在维和 维空间中,欧氏距离就是两点之间的实际距离在这里插入图片描述
马氏距离( Mahalanobis Dist nce 马氏距离是由印度统计学 马哈拉诺比斯提出种表示数值协方差距离的概念 这种协方 距离体现的是数据样本分布的距离 与欧氏距离不同的是,它考虑到各种特性之间的联系,并且是尺度无 的,即独 于测 尺度 马氏距可用于计算两个未知样本信息集合的相似度分析
曼哈顿距离( Manhattan Distance )。曼哈顿距离是由十九世纪的赫尔 闵可夫斯基所创的一个词汇,是一种使用在几何度量空间的几何 用语,用以标明两个点在标准坐标系上的绝对轴距总和 。它表示的不是两点间的直线距离 ,而是实际上从 点到达 点的距离 ,例
如城市街区 中,很 时候我们不可能通过直线的方式到达目的地,原因也很简单,我们无法穿越建筑,而是通过街道到达的
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
海明距离( Hamming Di tance 在信息论中,两个等长宇符串之间的海明距离是两个字符串对应位置的不同字符的个数 换句话说,它就是将 个字符串变换成另外 字符串时所需要替换的字符个数
在这里插入图片描述
对于固定的长度 ,海明距离是该长度字符向量空间上的度量,很显然它满足非负、唯及对称性 并且可以很容易地通过完全归纳法证明它满足 角不等式。两个字符 之间海明距离 可以看作特定运算 的海明重量。

数值归一化

在这里插入图片描述

概率分布

算法常常涉及数据分布情况 的分布方式包括 项分布( Bin ia Di stributi on )、超几何分布( Hypergeometric Distribution )、泊松分布( sso Distribution 〉以及正态分布( Normal Distribution )。

二顶分布

二项分布表示 个独立的是与非试验中成功次数的离散概率分布情况,每一次的成功或失败试验都被称为伯努 试验。 己知某生产线产品的合格率为 90% ,则重复抽取产品线中的产品,连续k 次且每次仅抽取一件,k 次抽取得到的合格产品个数 k的分布即为二 项分布
值得说明 的是,当 n=1时即为伯努利分布
一般情况下,如果随机变量x 服从参数n和·p 二项分布,贝n次试验中刚好得到 n次成功的,概率质量函数如下:在这里插入图片描述
在这里插入图片描述

超几何分布

超几何分布也是统计学中一种离散概率分布,和二项分布类似,不同点在于样本的量。当n=1时,超几何分布即为伯努利分布;而当 n的数量不可估量或趋近于无穷时,超几何分布即项分布。超几何分布是在有限的样本中的试验。例如,某公司有 100 工程师,其中 30名女性 70 名男性,现需要外派 10 名工程师外出学习,被选到女性工程师的人数 x个随机变量,而x 的分布即为超几何分布。

泊松分布

泊松分布适合描述在单位时间内随机事件发生的次数的概率分布。例如 ,搜索引擎在某时间内 的请求次数、某时间内火车站进站人数等 泊松分布与二项分布有 定的关联性, 项分布可以视为泊松分布在离线时间上的对应 泊松分布的概率质量函数如下,其中参数 是单位
时间内 随机事件的平均发生率
在这里插入图片描述
在这里插入图片描述

指数分布

指数分布是 种连续概率分布,指数分布可以用于分析独立的随机事#件发生的时间间隔例如, 般人喝水的时间间隔、城市下雨的时间间隔,等等。它与泊松分布也存在一定关联,泊松过程是 种随机过程,而在泊松分布过程中,第 次随机事件与第N+ 随机事件的时间间隔是符合指数分布的 。一个指数分布的概率密度函数如下, 其中 是分布的 参数,常被称作率参数,可以理解为每单位时间内发生该时间的次数
在这里插入图片描述
在这里插入图片描述

正态分布

正态分布也被称作高斯分布 ,是概率论中非常重要的分布,简单的理解即为当某个数量的指标受到大量随机因素的影响,然而每 个因素对结果产生的影响又非常小时,则该数据指标可以视为服从正态分布。正态分布中通过概率密度函数对随机变量进行分析 ,很多算法都依赖,正态分布进行估算。在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刹那永恒HB

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值