❥深度学习
文章平均质量分 73
记录深度学习中的重要内容
搬运代码打工人
分享学习
记录日常
展开
-
自然语言处理---情感分析(1)【baseline 从RNN开始】
情感分析 baseline数据集 – 电影评论数据集:IMDb数据集 ----- 数据由评论的原始字符串和情感组成,“pos”表示积极情绪,“neg”表示消极情绪。模型:RNN(默认有基础)[0时,表示预测为负面情绪, 类似分类问题]ht=RNN(xt,ht−1)h_t = \text{RNN}(x_t, h_{t-1})ht=RNN(xt,ht−1)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KKlgGZVV-1631697478974)(./ass原创 2021-09-15 17:18:34 · 721 阅读 · 0 评论 -
Transformer in NLP(4)【图解 GPT-2】
什么是语言模型在 图解 Word2Vec 中,我们了解到语言模型基本上是一个机器学习模型,它可以根据句子的一部分预测下一个词。最著名的语言模型就是手机键盘,它可以根据你输入的内容,提示下一个单词。4-word2vec.webp从这个意义上讲,GPT-2 基本上就是键盘应用程序中预测下一个词的功能,但 GPT-2 比你手机上的键盘 app 更大更复杂。GPT-2 是在一个 40 GB 的名为 WebText 的数据集上训练的,OpenAI 的研究人员从互联网上爬取了这个数据集,作为研究工作的一部分。从存原创 2021-08-24 11:05:36 · 286 阅读 · 0 评论 -
Transformer in NLP(2)【图解 Bert】
图解BERT前言BERT在2018年出现:如何最好地表示单词和句子,从而最好地捕捉基本语义和关系?NLP 社区已经发布了非常强大的组件,你可以免费下载,并在自己的模型和 pipeline 中使用。BERT的发布是这个领域发展的最新的里程碑之一,这个事件标志着NLP 新时代的开始。BERT模型打破了基于语言处理的任务的几个记录。在 BERT 的论文发布后不久,这个团队还公开了模型的代码,并提供了模型的下载版本,这些模型已经在大规模数据集上进行了预训练。这是一个重大的发展,因为它使得任何一个构建构建机原创 2021-08-23 10:37:43 · 225 阅读 · 0 评论 -
Transformer in NLP(2)【图解 transformer】
图解transformer前言2017 年,Google 提出了 Transformer 模型,用 Self Attention 的结构,取代了以往 NLP 任务中的 RNN 网络结构,在 WMT 2014 Englishto-German 和 WMT 2014 English-to-French两个机器翻译任务上都取得了当时 SOTA 的效果。在 Transformer 中,所有 time step 的数据,都是经过 Self Attention 计算,使得整个运算过程可以并行化计算。从整体宏观原创 2021-08-18 21:37:44 · 694 阅读 · 1 评论 -
Transformer in NLP(1)【seq2seq 到 Attention】
seq2seq模型常用于生成任务上:机器翻译、文本摘要、图像描述生成。谷歌翻译在 2016 年年末开始使用这种模型相关开创性论文:Sutskever 2014年 Sequence to Sequence Learningwith Neural NetworksCho等 2014年 Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation进一步理解细节se原创 2021-08-17 16:54:07 · 132 阅读 · 0 评论 -
Transformer in NLP(0)【预训练与Bert概览】
一、如何科学的微调预训练:当 Target model 中的全部/部分参数在见到 Target data 之前被训练过微调预训练模型分类无监督 + 大规模数据预训练(bert, roberta, xlnet)无监督 + domain数据预训练(用wikipedia数据做问答,用wiki数据做预训练)有监督 + 相似任务预训练(要对句子做二分类,可以先对短语二分类、文档二分类)有监督 + 相关数据、任务预训练(要对X做句法分析,由于这个数据标注了实体,那么先对实体标注做预训练)多任务学习(将多原创 2021-08-17 15:10:41 · 167 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(18)【 GNN】
GNNspatial-based GNNNN4GDCNNDiffusion-convolution Neural NetworkMoNET(Mixture Model Networks)GraphSAGEGATGraph Attention NetworksGINGraph Isomorphism Network原创 2021-08-16 14:50:02 · 332 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(17)【 LSTM 框架补充与应用】
LSTMLearning Targetcross entropyLearningBackpropagation through time (BPTT)RNN - based network is not always easy to learnThe error surface is roughthe error surface is eigher very flat or very steep.clipping : 当gradient > 15, 另gradient = 15原创 2021-08-12 12:40:38 · 306 阅读 · 0 评论 -
李宏毅机器学习【深度学习】系列【1- 16】
李宏毅机器学习【深度学习】(1)【回归】李宏毅机器学习【深度学习】(2)【偏差方差】李宏毅机器学习【深度学习】(3)【梯度下降】李宏毅机器学习【深度学习】(4)【反向传播】李宏毅机器学习【深度学习】(5)【鞍点与局部最优】李宏毅机器学习【深度学习】(6)【超参 batch 的选取】李宏毅机器学习【深度学习】(7)【RMSProp的产生与两种常用learing rate 的选取】李宏毅机器学习【深度学习】(8)【mse和cross-entropy对比 与 batch normalization】原创 2021-08-03 10:15:40 · 334 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(16)【RNN: LSTM 框架】
文章目录Recurrent Neural Network(RNN)slot fillingproblemRNNRNN 变形RNN 进阶 -- Long Short-term Memory(LSTM)概念LSTM formulationLSTM exampleLSTM frameRecurrent Neural Network(RNN)slot filling[ticket booking systemslot:destinationtime of arrivalword encoding原创 2021-08-03 09:19:34 · 350 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(6)【超参 batch 的选取】
batch为什么要用batchbig batch 不一定比small batch 花时间更长gpu parallel computing 1 - 1000 可能计算时间相差不大time(60) > time(1)num(5000/60) << num(5000/1)optimization fails“Noisy” update is better for training每次挑batch时候会shufflesmall batch is better for t原创 2021-07-23 21:18:09 · 129 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(5)【鞍点与局部最优】
optimizationsaddle point (critical point)导致梯度更新失败使用泰勒展开式中 Hessian 来判断是否是saddle pointH may tell us parameter update direction实际过程中不可能算 hessian ,没人用该方法逃离saddle pointsaddle point 和 local minima 谁更常见二维上的local minima 在三维上可能是一个saddle point后面的明天更新.原创 2021-07-22 00:16:52 · 348 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(4)【反向传播】
反向传播损失函数(Loss function)是定义在单个训练样本上的,也就是就算一个样本的误差,比如我们想要分类,就是预测的类别和实际类别的区别,是一个样本的,用L表示。代价函数(Cost function)是定义在整个训练集上面的,也就是所有样本的误差的总和的平均,也就是损失函数的总和的平均,有没有这个平均其实不会影响最后的参数的求解结果。总体损失函数(Total loss function)是定义在整个训练集上面的,也就是所有样本的误差的总和。也就是平时我们反向传播需要最小化的值。[外链图片原创 2021-07-18 21:39:44 · 102 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(2)【偏差方差】
Error的来源[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LDEIJLqk-1626453883494)(res/chapter5-1.png)]从上节课测试集数据来看,Average ErrorAverage\ ErrorAverage Error 随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果,而这些 ErrorErrorError 的主要有两个来源,分别是 biasbiasbias 和 variancevarianc原创 2021-07-17 00:47:31 · 161 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(1)【回归】
回归定义和应用例子回归定义Regression 就是找到一个函数 functionfunctionfunction ,通过输入特征 xxx,输出一个数值 ScalarScalarScalar。应用举例股市预测(Stock market forecast)输入:过去10年股票的变动、新闻咨询、公司并购咨询等输出:预测股市明天的平均值自动驾驶(Self-driving Car)输入:无人车上的各个sensor的数据,例如路况、测出的车距等输出:方向盘的角度商品推荐(Recomm原创 2021-07-14 21:13:10 · 118 阅读 · 2 评论 -
李宏毅机器学习【深度学习】(3)【梯度下降】
什么是梯度下降法?在第二篇文章中有介绍到梯度下降法的做法,传送门:机器学习入门系列02,Regression 回归:案例研究Review: 梯度下降法在回归问题的第三步中,需要解决下面的最优化问题:θ∗=arg minθL(θ)(1)\theta^∗= \underset{ \theta }{\operatorname{arg\ min}} L(\theta) \tag1θ∗=θarg minL(θ)(1)LLL :lossfunction(损失函数)θ\thetaθ原创 2021-07-17 00:49:10 · 112 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(15)【Spatial Transformer Layer】
#spatial transformer layerwhyCNN is not invariant to scaling and rotation.can also tranform feature maphow to transform an image/feature mapimage transformationExpansion, Compression, TranslationrotationProblem不能gradient descentinterpola原创 2021-08-03 07:54:38 · 503 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(14)【word-embedding】
文章目录word embedding --- unsupervised learning词编码类型count basedPrediction basedprediction based 变形multi domain embeddingdocument embeddingword embedding — unsupervised learning词编码类型1 - of - N encodingword classword embeddingcount based1.pngPre原创 2021-08-02 12:47:13 · 173 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(13)【self-attention】
文章目录self attention 按问题分类初识 self-attention深入了解 self - attention 架构使用矩阵来表示self - attentionMulti-head self-attentionQ:no position information in self-attentionself-attention 应用self-attention vs cnnself-attetnion vs rnnself-attention for graphMORE: 进阶self att原创 2021-08-01 10:12:41 · 143 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(12)【深度学习强力的解释2】
普遍性定理过去有一个理论告诉我们说,任何continuous function,它都可以用一层neural network来完成(只要那一层只要够宽的话)。这是90年代,很多人放弃做deep learning的原因,只要一层hidden layer就可以完成所有的function(一层hidden layer就可以做所有的function),那做deep learning的意义何在呢?,所以很多人说做deep是很没有必要的,我们只要一个hidden layer就好了。但是这个理论没有告诉我们的是,它只原创 2021-07-30 08:48:43 · 203 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(11)【深度学习强力的解释】
问题1:越深越好?问题2:矮胖结构 v.s. 高瘦结构真正比较deep和shallow比较shallow model较好还是deep model较好,在比较的时候一个前提就是调整shallow和Deep让他们的参数是一样多,这样就会得到一个矮胖的模型和高瘦的模型。这个实验的后半段的实验结果是:我们用5层hidden layer,每层2000个neural,得到的error rate是17.2%(error rate是越小越好的)而用相对应的一层的模型,得到的错误率是22.5%,这两个都是对应的拥原创 2021-07-26 09:16:56 · 272 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(10)【cnn 理解及应用】
CNN学到了什么?分析input第一个filter是比较容易的,因为一个layer每一个filter就是一个3*3的mmatrix,对应到3 *3的范围内的9个pixel。所以你只要看到这个filter的值就可以知道说:它在detain什么东西,所以第一层的filter是很容易理解的,但是你没有办法想要它在做什么事情的是第二层的filter。在第二层我们也是3 *3的filter有50个,但是这些filter的input并不是pixel(3 *3的9个input不是pixel)。而是做完convolut原创 2021-07-25 11:57:25 · 344 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(9)【cnn 框架】
为什么用CNN你可能觉得CNN运作很复杂,但事实上它的模型是要比DNN还要更简单的。我们就是用power-knowledge 去把原来fully connect layer中一些参数拿掉就成了CNN。Small region大部分的pattern其实要比整张的image要小,对一个neural来说,假设它要知道一个image里面有没有某一个pattern出现,它其实是不需要看整张image,它只要看image的一小部分。Same Patterns[外链图片转存中…(img-4kopf0GQ-162原创 2021-07-24 22:54:47 · 222 阅读 · 3 评论 -
李宏毅机器学习【深度学习】(8)【mse和cross-entropy对比 与 batch normalization】
classification as regressionsoftmax:让大的值和小的值差距更大cross - entropybatch normalization(在cnn中可以起到很大的作用)change landscape给不同dimention有同样的数值范围 — 》好的error surfacefeature normalization---->batch normalization — batch size 较大让网络自己来训练不同维度的权重—》 testin原创 2021-07-24 19:44:51 · 195 阅读 · 0 评论 -
李宏毅机器学习【深度学习】(7)【RMSProp的产生与两种常用learing rate 的选取】
Adaptive leaning rateloss 不在下降可能不是因为陷入了critical point,而gradient 仍然很大如果卡住了,去计算norm of gradient,看是否陷入local minimumerror surface [convex]** different parameters need different learning rate**RMSProp:最常用的 optimization 策略:adam:RMSProp + Momentummoment原创 2021-07-24 15:07:34 · 150 阅读 · 0 评论 -
关于GAN各种改进方法的基于PyTorch框架的实现
实用--------到达链接Table of ContentsInstallationImplementationsAuxiliary Classifier GANAdversarial AutoencoderBEGANBicycleGANBoundary-Seeking GANConditional GANContext-Conditional GANContext Enc...转载 2019-06-13 08:54:36 · 972 阅读 · 0 评论