![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 83
S_o_l_o_n
logic
展开
-
贝叶斯统计
频率学派经典估计和贝叶斯估计经典的频率学派的参数估计方法有矩估计和最大似然估计,假设样本是在一个客观固定的参数所确定的概率模型下生成的,这个前提下,直接先假设一个未知参数,然后根据某些原则(矩相等或者最大似然原则)求出未知参数值。由于频率学派认为参数是固定的未知常数,因此,对参数不会存在概率类似的阐述。例如,对于未知参数估计的在一定置信水平alpha下的置信区间,频率学派的正确解释是:如果进行n次试验,那么会有alpha*n次,真实的参数会落在这个置信区间中,而对于一次采样试验来说,参数是否落在这个区间原创 2023-01-27 21:40:24 · 805 阅读 · 0 评论 -
多元函数的二阶泰勒展开推导
多元函数受多个变量的影响,变量的变化造成函数值的变化,因此,只要变量的变化对函数值的影响一致,那么两个源自同一点的函数就完全一样。变量的变化对函数值的影响,是多重多阶的,因此,要使得两个函数一致,就要保证这种影响在任何阶任意维度都是一致的。从一元函数的角度,如果将函数图像理解成时间位移区间,那么两个函数曲线一致,意味着某一点开始,其速度要相等、速度的变化程度(加速度)要相等、加速度的变化程度(加速度的加速度)要相等...,这样就意味着两种位移是完全一致的,而这实际上就对应着各阶导数。原创 2022-11-12 18:11:04 · 4344 阅读 · 0 评论 -
词嵌入(Word Embedding)
目录为什么需要词向量嵌入?表征的对象是什么?如何表征?词向量嵌入矩阵Skip-GramCBoW负采样结语Reference为什么需要词向量嵌入? 在自然语言相关的任务中,我们将句子作为特征输入,然后得到相应的预测输出。相比于其他的任务,自然语言相关任务的特点就是,其输入的特征是句子,不是已经量化好的特征。但是计算机,或者说模型,本质上只能识别数字,只能对数字进行运算和处理,因此,对于符号型的文字,我们需要先进行数字化,这样才能将其作为特征输入。词向...原创 2021-11-21 18:25:01 · 1332 阅读 · 0 评论 -
理解拉格朗日乘子法的一种角度
本文旨在以一种相对直观的角度去理解拉格朗日乘子法,在推导得到拉格朗日乘子法最终形式之前,需要先理解以下三个推论:1. 梯度和等高域正交;2. 约束域的维度+约束条件个数=变量个数;3. 极值点的必要条件为约束域领域和目标梯度正交。 其中,等高域是目标函数等于某一个值时自变量所在的区域,所以在等高域中的所有点对应的函数值都是相等的;约束域就是由多个等式约束条件共同约束下自变量形成的区域。梯度和等高域正交 假设某点P对应的目标函数的梯度为G,根...原创 2021-11-07 20:42:16 · 564 阅读 · 0 评论 -
Batch Normalization
batch normalization是深度学习中常用的一种方操作,在深层网络的优化中,其可以说是一种标配,因为batch normalization带来的效果往往是显著的。方式 batch normalization是针对一个batch的样本进行的操作。如果对于某一层,我们要对其进行batch normalization操作,那么实际上就是对该层的每个单元分别进行Z-score的计算。因为一个batch有多个样本,对于每个样本,都可以计算得到一个该单元对应的前向反馈值...原创 2021-10-06 02:50:32 · 150 阅读 · 0 评论 -
深度学习之序列建模初总结
本文旨在讲解使用深度学习模型对序列数据进行建模,并且主要集中再MLP、RNN、LSTM以及GRU。MLP MLP是最简单的神经网络模型,其就是一个简单的DNN,即全连接前馈深度神经网络。根据通用近似理论,MLP可以近似拟合出任意的连续函数。但是这里有一个基本的前提是,输入数据包含了影响应变量或者说预测变量的所有因子或者说特征,而且数据量需要足够大,这个足够大是相对于噪声和具体模型而言的。实际上,现实情况是,我们并无法在输入数据中包含所有特征,而且现实数据也往往包含较多的...原创 2021-09-21 22:52:00 · 1936 阅读 · 0 评论 -
神经网络反向传播(BP)算法推导
BP算法是训练神经网络的一种算法,其是一种计算神经网络可训练参数的梯度的高效算法,正是因为BP算法的提出和在工程上的实现,使得深度神经网络模型可以比较轻易的训练。 BP算法是建立在梯度下降的优化算法基础之上的,正是因为我们使用了梯度下降的方法来优化我们的模型,我们才有计算参数梯度的需求。当然,神经网络已经给了我们目标函数的表达方式,因此,计算梯度其实是一件很显而易见的事情,问题在于,如果更加高效简单的计算,而且具有通用性,这才是这个优化问题的核心所在,BP算法的特点就是高效...原创 2021-09-12 17:15:51 · 757 阅读 · 0 评论 -
理解两个函数乘积的导数的一种视角
令z(x)=f(x)g(x)。通过乘法求导公式,会很容易通过f(x)和g(x)的导数得到z(x)的导数,当然背公式的事情不值一提。本文在于如何去理解这个导数公式,怎么去推导。 首先第一种方式是通过导数的定义去推导,这个其实也简单,只需要根据定义,写出定义方程,然后做一些简单的变换即可,这种方式也不能给我们更多的insight。所以本文想说的其实是下面的第二种方式。 另外一种方式是将f(x)和g(x)看成不同的个体,先忽略之间的关联,为避免歧义,我们把属于不同部分...原创 2021-09-05 16:40:38 · 4105 阅读 · 0 评论 -
深度学习同分布假设原因?何时可以弱化?
博主之前写过一篇类似的文章,不过还是不够清晰直观,本文将进一步直观的解释,为什么需要独立同分布假设,以及什么时候该假设可以弱化。 机器学习的根本目的是为了拟合features和label之间的函数关系,即y=f(x_1,x_2,...,x_k,x_k+1,...,x_n),目的是通过样本数据、模型和优化算法,拟合出f,然后再用拟合得到的f去做预测。因此,好的拟合有三要素:高质量的样本数据、理论可得到f的模型或者对f形式的合理预设以及合适的优化算法。 高质量的样本...原创 2021-06-27 20:03:29 · 865 阅读 · 1 评论 -
在本地浏览器上查看远程服务器上的tensorboard
1. keras中生成tensorboard日志信息 由于tensorboard日志是记录并且可视化训练过程的各个指标和权重信息的,所以需要通过回调函数来实现训练过程中的记录,然后将相应的回调函数传给模型的fit方法即可。如下所示,tf.keras.callbacks中有现成的回调函数,然后将其传给fit方法的callback参数即可。训练完成后就会在logdir目录下生成相应的信息文件。log_dir = "logs/fit/" + datetime.datetime.n...原创 2021-06-25 20:18:16 · 709 阅读 · 2 评论 -
主成分分析(PCA)的一种理解和推导
主成分分析的语境一般如下:假设需要预测的变量y由k个因素所制约,但是k比较大,使得数据维度较高,为了降低维度,简化计算以及缓解shu原创 2021-06-20 23:01:56 · 689 阅读 · 2 评论 -
矩阵再理解
矩阵是线性变换的表示。线性变换就是将线性空间中的向量变换为另一个向量,并且变换对加法和标量乘法封闭。先假设有一个线性变换T,在一个线性空间中,有一组基原创 2021-05-30 22:38:29 · 903 阅读 · 0 评论 -
信息量、信息熵、KL散度、交叉熵以及最大似然估计
信息量 信息量最初由香农提出,是通信理论中的一个概念。一个概率事件X的信息量定义如下:I(X) = -log(P(X)), P(X)表示事件X发生的概率。 信息量最初提出来是用来衡量编码一个信号状态需要的比特数(当以2为底数时),在这个信息量定义下,可以得到在一个多信源系统中,为了无损传输,对于多个信源的一次传输的信号的编码所需要的比特数的理论下界。 这是因为,在推导信息量的时候,对于信号的编码方式有三个基本原则,基于这三个基本原则,香农就从数学上直接推导...原创 2021-05-30 10:12:28 · 2148 阅读 · 0 评论 -
线性回归模型的局限性和注意点
回归分析是传统的研究变量关系很重要的一种方式,特别是在机器学习和深度学习兴起之前,回归分析基本就是探究变量关系之间的主要方式。线性回归又是回归分析中很重要的一种方式,由于其模型的简单性和有效性,线性回归分析在回归分析中始终扮演极其重要的角色。 线性回归分析在实际使用中,虽然简单有效,但是使用者往往很容易因为没有充分认识到线性回归模型的局限性和注意点而误用,导致得到很多...原创 2020-03-03 22:10:46 · 11730 阅读 · 2 评论 -
直观理解拉格朗日乘子法和Karush-Kuhn-Tucker(KKT)条件
在最优化问题中,经常是会有约束条件的,而约束条件可分为等式约束条件和不等式约束条件,对于前者,我们有拉格朗日乘子法,对于后者,有KKT条件,对于既有等式约束又有不等式约束的最优化问题,只需要结合拉格朗日乘子法和KKT条件即可。本文中,我们将分别看下等式约束和不等式约束下,拉格朗日乘子法和KKT条件的原理,以及如何去理解。 其实只要理解了等式约束条件下的拉格朗日乘子法,...原创 2019-07-21 02:24:08 · 1914 阅读 · 0 评论 -
如何直观理解梯度下降算法
要理解梯度下降算法,首先得理解梯度,而为了更好的理解梯度,首先需要理解方向导数。所以,我们先从一个多元可微函数的方向导数开始进入。 在讲方向导数之前,我们先思考一个问题:在三维空间里面想象一个立方体,如下图,现在底面ABCD上任意取一点E,坐标为(a,b),则点E到斜平面AB''D''的竖直距离d是多少呢? 如果a,b都大于0,则实际上d=a+b。...原创 2019-07-20 12:43:29 · 453 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯目录0. 前言 1. 历史 1.1 一个例子:自然语言的二义性 1.2 贝叶斯公式 2. 拼写纠正 3. 模型比较与贝叶斯奥卡姆剃刀 &nbs...转载 2019-07-12 14:13:12 · 179 阅读 · 0 评论 -
信息量和信息熵的理解
信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典的paper《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中,比如机器学习。如果跳出历史语境,跳出逻辑背景,那么这些概念是很抽象的,所以本文旨在结合历史语境,给这些概念提供一个相对直观的解...原创 2019-07-07 22:53:52 · 9622 阅读 · 0 评论