深度学习基础
Mosay_dhu
这个作者很懒,什么都没留下…
展开
-
模式识别课堂笔记——优化函数总结
1、SGD随机梯度下降是最原始的优化函数优点:算法收敛速度快(在Batch Gradient Descent算法中, 每轮会计算很多相似样本的梯度, 这部分是冗余的) 可以在线更新 有几率跳出一个比较差的局部最优而收敛到一个更好的局部最优甚至是全局最优缺点:容易收敛到局部最优,并且容易被困在鞍点2、AdagradAdagrad算法能够在训练中自动的对learning...原创 2019-04-15 08:56:46 · 338 阅读 · 0 评论 -
Batch Normalization 原理
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift机器学习领域有个很重要的假设:独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而实际情况往往是测试集和训练集分布不相同,即训练数据的领...转载 2018-12-03 14:33:51 · 467 阅读 · 0 评论 -
模式识别课程笔记——梯度消失与激活函数
1、梯度消失的产生原因使用sigmoid函数作为激活函数时,靠近输出层的梯度较大,更新较快;靠近输入层的梯度较小,更新较慢。因此当靠近输出层的梯度更新完成时,靠近输入层的权重未得到充分更新,仍保持几乎随机的状态。靠近输入层的函数梯度小的原因: 偏导约等于变化量的比值,当激活函数是sigmoid函数时,输入变化量很大,所对应输出的变化量却很小。如此从最后的梯度向前依次传递,离输出...原创 2018-10-27 10:33:14 · 671 阅读 · 0 评论 -
笔试题笔记——集成学习boosting和bagging
一、什么是集成学习?集成学习通过构建并结合多个学习器来完成学习任务,集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。二、集成学习的分类根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法;以及个体学习器间不存在强依赖关系,可同时生成的并行化方法。前者的代表是Boosting,后者的代表是Bag...原创 2018-09-03 20:50:30 · 1785 阅读 · 0 评论 -
支持向量机(SVM)3 —— 核函数
转自西瓜书《机器学习》在前面的讨论中,我们假设训练样本是线性可分的,即存在一个划分超平面将训练样本正确分类。然而在现实生活中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。例如下图中的“异或”问题就不是线性可分的。对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。例如在上图中,若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分...转载 2018-06-15 11:00:20 · 2204 阅读 · 0 评论 -
支持向量机(SVM)—— 软间隔与正则化
转自西瓜书《机器学习》在前面的讨论中,我们一直假设训练样本在样本空间或特征空间食线性可分的,即存在一个超平面能将不同类的样本完全划分开。然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练样本在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合造成的。缓解该问题的一个方法是允许支持向量机在一些样本上出错,为此要引入“软...转载 2018-06-22 10:28:13 · 9458 阅读 · 0 评论 -
支持向量机(SVM)——间隔与支持向量
西瓜书笔记分类学习最基本的思想是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,但能将训练样本划分的超平面可能有很多,我们需要指导对训练样本局部扰动“容忍”性最好的那个,即通过这个划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。在样本空间中,划分超平面描述为:其中:为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离。显然,划分超平面可被法向量w...转载 2018-06-07 12:50:46 · 2053 阅读 · 0 评论 -
支持向量机(SVM)——对偶问题
转自西瓜书《机器学习》上节我们介绍了支持向量机的基本型及其推导过程,这节我们对基本型求解。上节我们推导的模型为我们希望求解上式来得到大间隔划分超平面所对应的模型其中w,b是模型参数,注意到式(1)本身是一个凸二次规划问题。能直接用现成的优化计算包求解,但我们可以有更高效的方法。简单介绍一下凸二次规划,转自博客二次规划(quadratic programming)二次规划是指,带有二次型目标函数和约...转载 2018-06-14 12:40:39 · 10832 阅读 · 0 评论 -
编辑距离
下面来分析下题目规定的三个操作:添加,删除,替换。i,j分别为word1和word2的长度,从最后一位开始操作。假设word1[i]和word2[j](此处i = j)分别为:michaelab和michaelxy如果b=y, 那么:dis[i][j] = dis[i-1][j-1]。如果b!=y,那么:(1) 添加:也就是在michaelab后面添加一个y,那么word1就变成了mich...转载 2019-06-27 16:25:11 · 172 阅读 · 0 评论