机器学习深度学习算法知识
文章平均质量分 59
CtrlZ1
浮天水送无穷树,带雨云埋一半山。
展开
-
决策树算法分析
本文是根据西瓜书对决策树进行分析的。决策树的递归流程:函数:TreeGenerate(D,A):初始传入参数训练集为D(比如n个西瓜),传入参数属性为A(比如色泽、根蒂、纹理、触感。。。)①拿过来一个新生成的结点(第一次走这个过程的话就是根节点)②如果到达这个结点的训练集D中的样本全部属于某个类别标签C,那么就不用再分了,直接把这个结点设置为叶子结点,其类别标签为C,结束返回。...原创 2021-11-28 13:23:02 · 2234 阅读 · 0 评论 -
详细介绍Covariate Shift问题
目录什么是Covariate Shift例子什么是Covariate Shift在普通的深度学习或机器学习任务中,宏观上讲,Covariate Shift是指模型的输入数据和测试数据来自不同的分布;微观上讲,Covariate Shift是指,每次迭代模型都会经过反向传播调整参数,这样就使得每次迭代,神经网络各个层的输出数据分布都是变化的,这就导致神经网络参数要进行相应的调整从而拟合新的数据分布,疲于奔命。这又被称为Internal Covariate Shift。在迁移学习中,Covariate原创 2021-05-22 11:29:19 · 1124 阅读 · 0 评论 -
sigmoid ZigZeg解释
先上图关于图中zig zeg产生的原因,其实元凶是sigmoid只能得到正的激活值,所以假如有这么个网络:我们可以知道:dE/dw1=(dE/dy)∗(dy/dw1)=(dE/dy)∗a1d_{E}/d_{w1}=(d_{E}/d_{y})*(d_{y}/d_{w1})=(d_{E}/d_{y})*a1dE/dw1=(dE/dy)∗(dy/dw1)=(dE/dy)∗a1同理,dE/dw2=(dE/dy)∗a2d_{E}/d_{w2}=(d_{E}/d_{y})*a2dE/.原创 2021-01-13 20:07:23 · 579 阅读 · 0 评论 -
梯度消失与梯度爆炸解释
目录what & whyhowwhat & why首先,什么是梯度爆炸、梯度消失,或者说,emmmm,什么是梯度?下面通过一个神经网络来解释一下,(字不好还请见谅)之前看到吴恩达课程中关于梯度消失和梯度爆炸的课程讲解,当时就没太理解,直到今天这个问题出现了才不得不重新审视一下。上图是我简单写了一个每层只有一个神经元的神经网络,然后写了一下它反向传播更新w1参数的链式求导公式,因为梯度消失和梯度爆炸影响的是对于参数w的更新过程。梯度消失时,越靠近输入层的参数w越是几乎纹丝不动;梯度原创 2021-01-13 19:13:58 · 771 阅读 · 0 评论 -
预训练和微调
所谓预训练,其实就是已经提前训练好的模型。比如,你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先,你需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当你觉得结果很满意的时候,你就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 pre-training。之后,你又接收到一个类似的图像分类的任务。这时候,你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数,然后在训练.原创 2021-01-09 19:48:27 · 2053 阅读 · 0 评论 -
不变性(invariance)详细解释
原文:https://blog.csdn.net/weixin_39568744/article/details/82250663?utm_medium=distribute.pc_relevant.none-task-blog-searchFromBaidu-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-searchFromBaidu-2.controlinvariance(不变性),这种不变性包括tran转载 2020-12-17 20:18:42 · 2853 阅读 · 0 评论 -
池化层的作用理解与总结
原文:https://blog.csdn.net/weixin_42193719/article/details/103860206池化层的作用总结:在卷积神经网络中通常会在相邻的卷积层之间加入一个池化层,池化层可以有效的缩小参数矩阵的尺寸,从而减少最后连接层的中的参数数量。所以加入池化层可以加快计算速度和防止过拟合的作用。池化的原理或者是过程:pooling是在不同的通道上分开执行的(就是池化操作不改变通道数),且不需要参数控制。然后根据窗口大小进行相应的操作。 一般有max pooling、转载 2020-12-17 20:09:48 · 7951 阅读 · 0 评论 -
全连接层的作用解析
作者:魏秀参链接:https://www.zhihu.com/question/41037974/answer/150522307来源:知乎全连接层到底什么用?我来谈三点。全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中,全连接层可由卷积操作实现:对前层是全连接的全连接层可以转化为卷积核.转载 2020-12-17 19:52:46 · 1706 阅读 · 0 评论 -
feature map的理解
作者:itsAndy链接:https://www.zhihu.com/question/308021221/answer/1431405289来源:知乎feather map的理解在cnn的每个卷积层,数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起(像豆腐皮一样),其中每一个称为一个feature map。feather map 是怎么生成的?输入层:在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般就是3个feature map(红绿.转载 2020-12-17 11:26:14 · 1021 阅读 · 2 评论 -
pytorch优化器知识总结整理
目录SGDMomentumRMSPropAdamSGDMomentumRMSPropAdam原创 2020-12-05 18:44:11 · 925 阅读 · 0 评论 -
pytorch损失函数解析
目录nn.L1Loss:nn.NLLLoss:nn.CrossEntropyLossnn.MSELossnn.BCELoss:nn.L1Loss:这个比较简单,没有太多好说的,就是两者做差取绝对值,然后求和取平均。输入x和目标y之间差的绝对值,要求 x 和 y 的维度要一样(可以是向量或者矩阵),得到的 loss 维度也是对应一样的。loss(x,y)=1/n∑\sum∑ |x_i-y_i|nn.NLLLoss:nn.NLLLoss是负的似然对数损失,但Pytorch的实现就是把对应tar原创 2020-12-04 21:34:55 · 2942 阅读 · 0 评论 -
数据平滑处理之log1p()和exmp1()
今天在做题的时候学到了一点有用的东西,所以这里做个记录分享一下,有关数据预处理的两个函数问题——log1p、expm1优点:在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果;平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对...转载 2019-11-22 20:03:51 · 770 阅读 · 0 评论 -
标准BP算法详细解析
下面的过程参考西瓜书注意是标准BP噢,意思是一个单拿出一个样本来看的bp,单位是一个样本噢~一、图解以及符号定义我要再啰嗦一遍,写成我习惯的方式:二、过程解释①表示的是第一层第i个权值向量和第j个输入相乘的权值②表示的是第二层第j个权值向量和第y个输入相乘的权值,很明显,只有一个输出所以j=1,y取值1~S由此我们可以继续得到下面这些参数:a:隐...原创 2019-10-10 00:06:36 · 3340 阅读 · 4 评论 -
单向神经网络python代码及算法分析
我写这篇文章主要目的是记录,所以过程可能比较简略。本质上学习logistic 回归的系数。前向传播:输入样本集X,X.shape=(样本数,特征数),W.shape=(特征数,输出数),b形状和w一样,不过利用python广播的性质,b可以是一位数组,[输出数]z=x*w+b激活函数σ:y=a=σ(z)损失函数反向传播:反向传播过程计算梯度w=w...原创 2019-10-04 12:58:17 · 394 阅读 · 0 评论 -
【转】通俗易懂--岭回归(L2)、lasso回归(L1)、ElasticNet讲解(算法+案例)
1.L2正则化(岭回归)1.1问题想要理解什么是正则化,首先我们先来了解上图的方程式。当训练的特征和数据很少时,往往会造成欠拟合的情况,对应的是左边的坐标;而我们想要达到的目的往往是中间的坐标,适当的特征和数据用来训练;但往往现实生活中影响结果的因素是很多的,也就是说会有很多个特征值,所以训练模型的时候往往会造成过拟合的情况,如右边的坐标所示。1.2公式以图中的公式为例,往往我...转载 2019-09-27 20:08:33 · 1263 阅读 · 0 评论 -
机器学习笔记(一)——单变量线性回归
看的是吴恩达机器学习那一块的教程,里面公式繁多,为了以后自己能早点拾起来,这里特地记录一下。m代表的是样本数哈,n代表的是样本的特征数。以目标函数为例,他的代价函数就是J,要深刻理解代价函数的意思。其实他就是误差,咱们的目标就是选择一组好的theta来使这个代价函数尽量小。再来说一说梯度下降:批量梯度下降中批量的意思是每一次同时让所有的参数减去学习速率乘以代价函数的导...原创 2019-09-24 21:01:01 · 127 阅读 · 0 评论 -
统计学习方法第十章隐马尔可夫模型
最近感觉学习深度学习不能一直只注重代码,而不注重对于算法的理解,决定补一补深度学习相关的算法内容。隐马尔可夫模型是可用于标注问题的统计学习模型,描述的是由隐藏的马尔可夫链随机生成观测序列的过程。一、隐马尔可夫模型的基本概念它是一个关于时序的概率模型,过程是:隐藏的马尔可夫链随机生成不可观测的状态随机序列,称为状态序列->每个状态生成一个观测,组成观测序列。注意!序列的每一个位...原创 2019-09-18 14:08:37 · 2105 阅读 · 0 评论