![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Machine Learning
哗啦呼啦嘿
这个作者很懒,什么都没留下…
展开
-
LSTM和GRU的动态图解
在这篇文章中,我们将从LSTM和GRU背后的知识开始,逐步拆解它们的内部工作机制。如果你想深入了解这两个网络的原理,那么这篇文章就是为你准备的。问题:短期记忆如果说RNN有什么缺点,那就是它只能传递短期记忆。当输入序列够长时,RNN是很难把较早的信息传递到较后步骤的,这意味着如果我们准备了一段长文本进行预测,RNN很可能会从一开始就遗漏重要信息。出现这个问题的原因是在反向传播...转载 2019-12-17 11:27:23 · 1729 阅读 · 0 评论 -
马尔可夫模型(Markov Model)和隐马尔可夫模型
以下为中国科学院大学课堂PPT内容:、PPT地址为:http://www.nlpr.ia.ac.cn/cip/ZongReportandLecture/Lecture_on_NLP/NLP2018_Chp_06_HMM_and_CRFs.pdf...原创 2019-12-06 11:23:26 · 965 阅读 · 0 评论 -
ML-SVM 解决多分类问题
SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来比较困难,只适合用于小型问题中;...转载 2019-12-04 17:16:32 · 735 阅读 · 0 评论 -
梯度下降法
深入浅出--梯度下降法及其实现梯度下降的场景假设 梯度 梯度下降算法的数学解释 梯度下降算法的实例 梯度下降算法的实现 Further reading本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简单的梯度下降算法的实例!梯度下降的场景假设梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个...转载 2019-05-10 10:41:32 · 152 阅读 · 0 评论 -
BN层
神经网络之BN层背景BN,全称Batch Normalization,是2015年提出的一种方法,在进行深度网络训练时,大都会采取这种算法。原文链接:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift尽管梯度下降法训练神经网络很简单高效,但是需要...转载 2019-05-08 21:10:21 · 1599 阅读 · 0 评论 -
预训练与微调
预训练(pre-training/trained)和微调(fine tuning)这两个词经常在论文中见到,今天主要按以下两点来说明。什么是预训练和微调? 它俩有什么作用?什么是预训练和微调你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先,你需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当你觉得结果很满意的...转载 2019-04-16 16:48:42 · 2259 阅读 · 1 评论 -
Transposed Convolution, Fractionally Strided Convolution or Deconvolution
反卷积(Deconvolution)的概念第一次出现是Zeiler在2010年发表的论文Deconvolutional networks中,但是并没有指定反卷积这个名字,反卷积这个术语正式的使用是在其之后的工作中(Adaptive deconvolutional networks for mid and high level feature learning)。随着反卷积在神经网络可视化上的...转载 2018-12-11 20:38:14 · 156 阅读 · 0 评论 -
参数与超参数
参数:就是模型可以根据数据可以自动学习出的变量,应该就是参数。比如,深度学习的权重,偏差等超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的(这个模型不同的意思就是有微小的区别,比如假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型哈。),超参数一般就是根据经验确定的变量。在深度学习中,超参数有:学习速率,迭代次数,层数,每层神经元的个数等等。 参考链接:http...转载 2018-12-12 15:11:22 · 203 阅读 · 0 评论 -
Understanding LSTM Networks(LSTM的网络结构)
Recurrent Neural Networks人类不是每时每刻都从头开始思考的。当你读这篇文章的时候,你理解每个单词是基于你对以前单词的理解。你不会把所有的东西都扔掉,然后从头开始思考。你的思想有毅力。传统的神经网络无法做到这一点,这似乎是一个主要的缺点。例如,假设你想对电影中每一点发生的事件进行分类。目前尚不清楚传统的神经网络如何利用其对电影中先前事件的推理来告知后来的事件。递归神经...原创 2018-11-13 19:54:49 · 13813 阅读 · 1 评论 -
奇异值和特征值
1.前言 第一次接触奇异值分解还是在本科期间,那个时候要用到点对点的刚体配准,这是查文献刚好找到了四元数理论用于配准方法(点对点配准可以利用四元数方法,如果点数不一致更建议应用ICP算法)。一直想找个时间把奇异值分解理清楚、弄明白,直到今天才系统地来进行总结。上一次学习过关于PCA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。特征值和奇异值在...转载 2019-02-23 15:17:05 · 5550 阅读 · 4 评论 -
主成分分析PCA
主成分分析PCA降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降...转载 2018-08-09 09:40:17 · 140 阅读 · 0 评论 -
线性梯度下降
一.定义梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以),本文介绍的是线性梯度下降法。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就...原创 2018-06-13 12:16:21 · 601 阅读 · 0 评论 -
线性回归与逻辑回归
线性回归与逻辑回归 一. 首先了解下什么是回归?回归:指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。回归分析是一种数学模型。 之前在知乎看到关于回归的解释还挺好理解的:单看这个词,regression. re前缀表示的是恢复(r...原创 2018-04-03 22:37:23 · 1261 阅读 · 0 评论