- 博客(23)
- 资源 (1)
- 收藏
- 关注
转载 通俗解释指数加权平均
前言在深度学习优化算法中,我们会涉及到指数加权平均这个概念,下面我将通过例子来一步一步引出这个概念。平均数求法比如我们现在有100天的温度值,要求这100天的平均温度值。24,25,24,26,34,28,33,33,34,35…32。我们直接可以用公式:通过上面的公式就可以直接求出10天的平均值。而我们要介绍的指数加权平均本质上就是一种近似求平均的方法。指数加权平均我们现在直接给出公式:化简开得到如下表达式:通过上面表达式,我们可以看到,V100等于每一个时刻天数的温度
2020-06-30 09:13:02 2607 1
转载 深度学习最优化方法之AdaGrad
总括首先我们来看一下AdaGrad算法我们可以看出该优化算法与普通的sgd算法差别就在于标黄的哪部分,采取了累积平方梯度。简单来讲,设置全局学习率之后,每次通过,全局学习率逐参数的除以历史梯度平方和的平方根,使得每个参数的学习率不同作用那么它起到的作用是什么呢?起到的效果是在参数空间更为平缓的方向,会取得更大的进步(因为平缓,所以历史梯度平方和较小,对应学习下降的幅度较小),并且能够使得陡峭的方向变得平缓,从而加快训练速度。下面通过例子讲解一下:假设我们现在采用的优化算法是最普通的梯度下降
2020-06-30 09:09:21 1634
转载 RuntimeError: Expected object of backend CUDA but got backend CPU for argument
RuntimeError: Expected object of backend CUDA but got backend CPU for argument #4 'mat1' 原因:变量没有加cuda data=data.cuda()
2020-06-17 22:30:41 1138
转载 正向最大匹配 和逆向最大匹配对比比较
正向最大匹配法 &逆向最大匹配法 原理对比下面介绍的分词算法中最简单的正向最大匹配和反向最大匹配。这种两种方法都是机械分词方法,它是按照一定的策略将待分析的汉字串与一个”充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用...
2020-06-17 20:57:08 4267
转载 Apriori算法通俗详解_fpgrowth_关联
1.Apriori算法描述Apriori算法指导我们,如果要发现强关联规则,就必须先找到频繁集。所谓频繁集,即支持度大于最小支持度的项集。如何得到数据集合D中的所有频繁集呢?有一个非常土的办法,就是对于数据集D,遍历它的每一条记录T,得到T的所有子集,然后计算每一个子集的支持度,最后的结果再与最小支持度比较。且不论这个数据集D中有多少条记...
2020-06-15 22:16:05 3062 1
原创 动态规划详解
https://www.cnblogs.com/tk55/p/6088537.html对状态空间图搜索的几种算法比较(图)【深度、宽度、动态规划(均一代价)、最佳优先和A*算法】
2020-06-13 22:18:24 126
转载 动态规划 搜索
有点问题动态规划的本质不在于是递推或是递归,也不需要纠结是不是内存换时间。理解动态规划并不需要数学公式介入,只是完全解释清楚需要点篇幅…首先需要明白哪些问题不是动态规划可以解决的,才能明白为神马需要动态规划。不过好处时顺便也就搞明白了递推贪心搜索和动规之间有什么关系,以及帮助那些总是把动规当成搜索解的同学建立动规的思路。当然熟悉了之后可以直接根据问题的描述得到思路,如果有需要的话再补充吧。动态规划是对于 某一类问题 的解决方法!!重点在于如何鉴定“某一类问题”是动态规划可解的而不是纠结解决方法是递归还
2020-06-13 21:58:32 395
转载 各种正交以及正交和
编程中,经常出现正交这个词。正交指相互独立,不可替代,并且组合起来可实现其它功能。为什么相互独立,会使用正交这个词呢?正交,最开始是数学术语,被引到计算机领域。正交英文是 orthogonal,本意是垂直,几何概念。线性代数中,两向量正交指它们内积为 0。而函数正交,是指两个函数相乘的积分为 0。但就算知道这些,还是不明白正交是什么,数学上的正交概念跟编程上的正交概念有什么关系呢?原则无论什么领域,表象都是无穷无尽的,会出现各种情形。假如出现情形 A, 就单独去研究情形 A;出现情形 B...
2020-06-13 12:05:47 6373
转载 交叉熵理解深度学习互信息
关于交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便。最近开始研究起对抗生成网络(GA...
2020-06-10 11:20:58 403
转载 RuntimeError: Expected object of device type cuda but got device type cpu for argument pytorch数据位置
RuntimeError: Expected object of device type cuda but got devic...
2020-06-09 16:51:35 3529
转载 openpyxl.utils.exceptions.IllegalCharacterError错误
https://blog.csdn.net/javajiawei/article/details/97147219原文在这里https://blog.csdn.net/ZWX2445205419/article/details/104797637/
2020-06-09 15:22:44 1764
转载 知识蒸馏(Knowledge Distillation)详细深入透彻理解重点
文字长度: ★★★☆☆阅读难度: ★★☆☆☆原创程度: ★★★★★ 知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作: 论文链接arxiv.orgKnowledge Distillation,简称KD,顾名思义,就是将已经训练好的模型包含的知识(”Knowledge”),蒸馏("Distill")提取到另一个模型里面去。今天,我们就来简单读一下这篇论文,力求用简单的语言描述论文作者的主要思
2020-06-09 11:23:23 5310 4
转载 bert [unused*] 特殊符号
https://mp.weixin.qq.com/s?__biz=MzA4Mjk1NzE2Mw==&mid=2247483865&idx=1&sn=6b4622c3b7c5b320144a404510f5c098&chksm=9ffc87dda88b0ecb8ad862c946293c9c013027220c9c06eede1771c24ff62e7b522b2a763b35&mpshare=1&scene=23&srcid=&sharer_s
2020-06-08 09:18:17 3460 1
原创 输入输出导入导出问题
https://blog.csdn.net/weixin_38859557/article/details/84633185_pickle.UnpicklingError: invalid load key, ‘H’.两个文件由两种不同的模型生成
2020-06-05 15:24:50 1110 4
转载 albert速度
本文是我对ALBERT论文的一个总结归纳,如有理解上的偏差、错误欢迎大家指正批评,感谢。前言RoBERTa没霸榜几天,这不Google爸爸就又放大招,这次的新模型不再是简单的的升级,而是采用了全新的参数共享机制,反观其他升级版BERT模型,基...
2020-06-04 14:50:19 592
原创 陌生单词-专业英语代码编码符号1
benchmark: 基准general domain 一般范畴suffer from 遭受domain-specific 指定领域 修饰词放在后面 短横线的应用derive 获得retrieve 检索complementary 辅助性的effectiveness 效力efficiency 效率instantiate 举例说明is referred to 是指a...
2020-06-02 16:43:13 2784
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人