李宏毅深度学习
文章平均质量分 55
深度学习理论
在学习的苹果
这个作者很懒,什么都没留下…
展开
-
李宏毅2021机器学习笔记(十五)
因为续写的缘故,我们在预测时,要当做文字续写来做。BERT做的是填空题,那么GBT做的就是续写题。语音版的GLUE,评测模型。有点像Decoder。GBT还可以做很多事。原创 2022-08-06 10:09:06 · 239 阅读 · 0 评论 -
李宏毅2021机器学习笔记(十四)
BERT就是Transformer的Encoder,输入一个Vector,输出一个Vector,一般用于NLP,但是语音、图片仍然可以用,在研究阶段。这个就是我们重新训练,而不采用谷歌训练好的模型的原因:我们需要探索BERT训练的完整过程,从而探究如何才能优化训练,使其在更短的时间进行收敛。给定两个句子,问BERT哪个在前面。神奇的是这样的模型,在finetunning英文后,给中文训练,居然还有很高的正确率!要注意的是,我们的BERT是pre-train 的,只有Linear是需要重新学习的。...原创 2022-08-06 09:20:16 · 207 阅读 · 0 评论 -
李宏毅2021机器学习笔记(十三)
Transformer简单来说就是Sequence-to-Sequence输入一个序列,输出一个结果这个是台语到中文的翻译器但是如果你特质化模型,效果当然更好。当然Seq2Seq也能做 还有如下。Transformer原理Encoder这就是一级框架。下面我们来讲Encoder其实Transformer的Encoder就是用了Self-attention。解释一下:每个Block都包括好几个............原创 2022-08-04 20:51:36 · 262 阅读 · 0 评论 -
李宏毅2021机器学习笔记(十二)
Normalization举个例子:x1是克,x2是吨。量纲不同导致变化率不同 。这时候我们就像要消除量纲的影响Normalization。标准化哦。让你的梯度下降收敛得更快对了,z还要再次进行Normalization因为均值和方差需要考虑整个样本,同时为了样本数不是太大,我们一般只考虑一整个batch进行Normalization,就是Batch Normalizationbatch比较大会很好,这样可以用样本估计总体为了增加灵活性,还会...原创 2022-04-10 14:49:47 · 670 阅读 · 0 评论 -
李宏毅2021机器学习笔记(十一)
自注意力机制(Self-attention)之前我们CNN的时候还是给定大小的矩阵,但是如果说我们的矩阵输入是可变的呢??那要怎么做??举个简单的例子:文字处理。我们把每一个单词都视作一个Vector,那么一个句子就是一个大小不固定的Matrix最蠢的做法是 One-hot Encoding也就是说:如果有n个单词,我就搞一个n维向量而且你看不到词汇之间的关系:如动物,单复数等还有一种是Word Embedding这个 最直观的表现就是动物在一团..原创 2022-04-08 21:49:37 · 846 阅读 · 0 评论 -
李宏毅2021机器学习笔记(十)
为什么深度学习好?回忆一下之前讲过的复杂度的问题H大:虽然我Loss-all会很小,模型很精确,但是Loss-train和Loss-all的差距就很大H小:Loss都很大,但是train和all差距小!!P不等式得出如果我给出一个H,大小恰当,成员数目恰当,就可以完美平衡优缺点复习一下之前的Deep Lear ing为了拟合曲线,我们先引出Piecewise Linear(分段线性拟合)而这些绿色的线条怎么拟合??用函数拟合,分段拟合,叠加 。这些..原创 2022-04-08 12:23:53 · 756 阅读 · 2 评论 -
李宏毅2021机器学习笔记(九)
虽然已经把数据集分为Training set和Validation set,为什么还是会Overfitting??我们是先从D-train训练得到参数h,之后用D-val进行Loss的评价,最终选择最合适的Model进行test其实你想想,这一过程不也是一个train吗我们的目的就是挑选出L小的h*。H-val只有三个选择,并用D-val这一数据集进行train...原创 2022-04-08 10:53:51 · 576 阅读 · 0 评论 -
李宏毅2021机器学习笔记(八)
CNN卷积神经网络——图像处理输入给定相同大小的图片,输出一个向量,n维向量可以辨识n种动物,但是我们输出的可能不是膜长为1的向量哦那就需要分类的方法Cross entropy 去构造Loss计算机世界中图像是什么?张量tensor可以理解为PS里面的通道层数把三色通道写到一维数组就是右边这个其实是矩阵拼接起来的啦:100*100的矩阵竖着拼但其实我们不需要去看所有的细节,我们只需要看:鸟嘴、鸟眼睛等区域就可以那么我...原创 2022-04-06 20:16:50 · 385 阅读 · 0 评论 -
李宏毅2021机器学习笔记(七)
探究宝可梦和数码宝贝分类器Classification第一步还是定义函数,这个H是函数定义域,其实输入的参数x就是图像的图形数目。H越大说明复杂度越高!!接下来是Loss函数不过我们要有数据集这个Loss类似我们的极大似然估计,本质思想就是:找使得L为极值点的参数hl()这个函数就是如果得出的y与y-hat一致(匹配成功)那就输出1我们如果得到所有的数据集,那么就可以找到完美的参数,使得Loss最小但是我们不可能找到所有的数据集只有训练集...原创 2022-04-06 13:44:15 · 478 阅读 · 0 评论 -
李宏毅2021机器学习笔记(六)
分类Classification不同于回归,分类产生的y我们需要先归一化到0-1区间,且概率和为1.再与y-hat进行比较这里用的是soft max函数这个exp是指数函数的意思。但是如果2个分类可以直接取sigmoid,就是等价的完全等价欸!!!接下来我们讨论Classification的Loss函数当然我们可以用MSE但是一般用Cross-entropy交叉熵其实我们一般就是先用soft max+cross -entrop.原创 2022-04-05 18:16:00 · 604 阅读 · 0 评论 -
李宏毅2021机器学习笔记(五)
这次讲Batch和MomentumShuffle:重新洗牌,重新分batch再进行epoch那究竟选择什么样的batch?其实我们处理数据是用GPU并行处理,当达到GPU的极限,效率是最高的,如上图的1000,因为减少batch size几乎不会影响一个epoch的时间,相反会增加epoch的数目如果根据batch size大小看整体时间,那就是下图其实batch也不能非常大,这样的优化问题optimization会不好,如下所以还是适当的batch si原创 2022-04-04 18:09:05 · 349 阅读 · 0 评论 -
李宏毅2021机器学习笔记(四)
这次讲优化问题中的:局部最小值以及鞍点在梯度下降法中,微分为0并不一定是最优解,具体分为以上两种情况原创 2022-04-04 15:49:23 · 760 阅读 · 0 评论 -
李宏毅2021机器学习笔记(三)
再次回顾ML过程定义参数——定义损失函数——梯度下降优化参数欠拟合(Model Bias)解决欠拟合:① 增加线性模型参数,赋予更多弹性②使用dl的弹性进行拟合局部最小值情况注意!此类情况测试集以及预测效果都不好,而Overfitting是测试好的不行,而预测很离谱!所以说当我们适当增加模型弹性,导致结果很离谱,那就可能是Optimization Issue(优化问题)关于loss的评估图mismatch的情况是训练集和测试集分布不一样,..原创 2022-04-02 13:37:11 · 338 阅读 · 0 评论 -
李宏毅2021机器学习笔记(二)
函数的种类1、回归返回值为数值类型,多元参数输入2、分类返回一个已定义的类。如阿尔法狗,传入棋盘,返回的是棋盘的位置以上仅仅是两大类实际上还可以输出有结构化数据,如图片,文档等怎么找函数???构建模型如一元函数模型,类似回归分析,bw作为位置参数需要估计。函数称为模型Model。xy作为已知量称为feature。w是weight,b是bias定义Loss(w,b)评估参数的好坏如何评估? 需要我们从数据集进行代入,评估。引入..原创 2022-03-06 16:16:40 · 711 阅读 · 0 评论 -
李宏毅2021机器学习笔记(一)
什么是机器学习?简单来说就是让机器帮我们找一个函数,即一个映射。如声音—>文字的语音识别函数自变量可以是向量,矩阵(图像识别),序列输出是数值、图片等课程讲什么?一、监督学习,给定图片人工的告诉机器其类型,训练模型,让机器拥有 f(图片)—>类型 这一函数二、训练模型之前进行Pre-train,让机器学习如何辨别图片这一基本功,因为人工输入图片类型过于繁琐。只需传入大量图片资料即可自动训练。如把图片翻转、变色,询问机器是不是可以...原创 2022-03-06 12:40:38 · 716 阅读 · 0 评论