深度学习基础课笔记
文章平均质量分 87
Y_蒋林志
不如打工去
展开
-
ELMO,BERT和GPT的原理和应用总结(李宏毅视频课整理和总结)
介绍几种主流的NLP模型,ELMO,BERT,GPT然而这不符合语言学的特点,例如:“太阳就是日”和“我日你大爷”。很明显两个“日”表达的意思并不相同,但是如果使用word2vec做静态embedding,那么神经网络看到的“日”是同样的语意。于是就延伸出带有上下文的embedding(Contextualized word embedding)。这种embeding可以保证同一个字在不同的语境下有不同的embeding。而本文介绍的三个网络都是Contextualized word embedding原创 2021-08-27 00:47:28 · 2807 阅读 · 39 评论 -
Anomaly Detection(异常检测)的原理及最新的技术应用(李宏毅视频课整理和总结)
文章目录0 前言1 Introduction1.1 Problem Formulation1.2 Base Idea2 With Classifier2.1 Base Method2.2 Evaluation2.3 More2.3.1 Possible Issues2.3.2 Network for Confidence Estimation2.3.3 Obtain Anomaly3 Without Labels0 前言本节学习的是Anomaly Detection(异常检测),即让一个系统从数据中学原创 2021-08-22 00:59:38 · 3536 阅读 · 68 评论 -
Auto-encoder(自编码器)的原理及最新的技术应用(李宏毅视频课整理和总结)
文章目录0 前言1 Auto-encoder1.1 PCA1.2 Deep Auto-encoder2 Some Applications2.1 Text Retrieval(文字检索)2.2 Similar Image Search(相似图片搜索)2.3 Pre-training(预训练)3 De-noising Auto-encoder(加噪的自编码器)4 Auto-encoder for CNN4.1 Unpooling(反池化)4.2 Deconvolution(反卷积)4.3 Generate I原创 2021-08-20 10:22:39 · 6933 阅读 · 70 评论 -
深度学习中Transformer的原理和方法(李宏毅视频课笔记)
文章目录0 前言1 RNN to CNN2 Self-Attention2.1 Base Method2.2 Matrix Representation2.3 Multi-head Self-attention2.4 Positional Encoding3 Seq2Seq Based on Self-Attention3.1 Base Method3.2 Transformer4 Attention Visualization0 前言本节学习的是Transformer。Google于2017年6月发原创 2021-08-10 15:39:44 · 1919 阅读 · 10 评论 -
使用Pytorch搭建CNN模型完成食物图片分类(李宏毅视频课2020作业3,附超详细代码讲解)
文章目录0 前言1 任务描述1.1 数据描述1.2 作业提交1.3 数据下载1.3.1 完整数据集1.3.2 部分数据集2 过程讲解2.1 读取数据2.2 数据预处理2.3 模型搭建2.4 模型训练2.4.1 Training2.4.2 Validating2.5 模型测试2.6 运行结果3 完整代码3.1 我的版本3.2 原始版本(需要GPU且安装cuda)0 前言本文利用深度学习框架-Pytorch复现了李宏毅机器学习2020年作业3例程,有问题欢迎在评论区交流,我会及时回复。1 任务描述收集原创 2021-08-09 00:29:19 · 6056 阅读 · 20 评论 -
深度学习Conditional Generation by RNN & Attention的原理和方法(李宏毅视频课笔记)
文章目录0 前言1 Generation1.1 Base Method1.2 Conditional Generation(有条件的生成)1.2.1 Image Caption Generation1.2.2 Machine Translation1.2.3 Chat-bot(聊天机器人)2 Attention2.1 Machine Translation(Attention-based Model)2.2 Speech Recognition2.3 Image Caption Generation(Att原创 2021-08-07 01:15:58 · 1000 阅读 · 41 评论 -
深度学习中模型压缩(Network Compression)的几种方法(李宏毅视频课总结)
文章目录0 前言1 Network Pruning(网络剪枝)1.1 Base method1.2 Weight Pruning1.3 Neuron Pruning2 Knowledge Distillation(知识蒸馏)3 Parameter Quantization (参数量化)3.1 Base Method3.2 Binary Weight(二元权值)4 Architecture Design(结构设计)4.1 Low Rank Appropriation4.2 Depthwise Separabl原创 2021-08-06 00:44:40 · 3417 阅读 · 0 评论 -
深度学习中模型攻击与防御(Attack DL Models and Defense)的原理与应用(李宏毅视频课笔记)
文章目录0 前言1 Attack(模型攻击)1.1 Attack on Image Recognition Network Model(对图像识别网络模型的攻击)1.1.1 Loss Function for Attack1.1.2 Constraint(相似度的限制)1.1.3 Solution to Attack(求解攻击信号)1.1.4 Example1.1.5 Explanation of Attack1.2 FGSM(快速梯度下降法)1.3 Black Box Attack(黑盒攻击)1.3.1原创 2021-08-05 03:39:11 · 5734 阅读 · 1 评论 -
可解释机器学习(Explainable/ Interpretable Machine Learning)的原理和应用(李宏毅视频课笔记)
文章目录0 前言1 Introduction of Explainable/ Interpretable ML1.1 Why we need Explainable ML?1.2 Interpretable v.s. Powerful2 Local Explanation2.1 Introduction of Local Explanation2.1 Removing Way2.2 Modifying Way2.3 Limitation of Gradient based Approaches2.4 At原创 2021-08-02 01:58:24 · 4164 阅读 · 0 评论 -
常用的词嵌入(Word Embedding)方法及其原理(超详细的李宏毅视频课笔记)
介绍最早的电脑读取文字的每一个词汇都当做一个符号,都用向量来描述,这个方法是不足的,这样词汇和词汇之间的相关性反应不出来。后来有了word class,将词汇进行分类。这个方法也比较粗糙,比如动物也分了很多种Word Embedding 每一个的词汇都用向量来描述,但是每一个维度是一个属性。怎么做?这是一个无监督方法,通过让模型阅读大量词汇,就可以知道这个embedding的feature vector长什么样子。就是找一个network,输入是一个词汇,输出就是那个embedding,输原创 2021-08-01 02:40:24 · 14116 阅读 · 1 评论 -
半监督学习的原理和实现方法总结(李宏毅视频课&个人理解)
0 前言本文由整理李宏毅老师视频课笔记和个人理解所得,主要讲述了半监督学习的原理及实现方法。有问题欢迎在评论区下方交流,我会及时回复。1 有监督和半监督的概念有监督学习:{(xr,y^r}r=1R\left\{\left(x^{r}, \hat{y}^{r}\right\}_{r=1}^{R}\right.{(xr,y^r}r=1R 训练时用了R个带标签的样本数据,用已经标记好的数据(labelled data),用来做训练来预测新数据的类型(class)。也就是说训练的过程中不仅参考了样本信息,原创 2021-07-31 02:46:21 · 3578 阅读 · 0 评论 -
使用Pytorch快速搭建神经网络模型(附详细注释和讲解)
0 前言代码参考了知乎上“10分钟快速入门PyTorch”系列,并且附上了详细的注释和函数讲解。从今天这篇博文开始,我将和大家一起踏上Pytorch的学习道路,希望有问题可以指出!1 数据读入torchvision.datasets里面有很多数据类型,里面有官网处理好的数据,比如我们要使用的MNIST数据集(手写数字数据集),可以通过torchvision.datasets.MNIST()来得到:import torchfrom torch import nnfrom torch.utils.d原创 2021-07-29 01:06:01 · 18503 阅读 · 5 评论 -
各类PyTorch教程和案例的链接汇总(转载)
文章目录0 前言1 入门系列教程2 入门实例3 图像、视觉、CNN相关实现4 对抗生成网络、生成模型、GAN相关实现5 机器翻译、问答系统、NLP相关实现6 先进视觉推理系统7 深度强化学习相关实现通用神经网络高级应用0 前言转载了一篇适合新手的各类PyTorch教程总结的文章,希望对大家有帮助,原文链接在文末。1 入门系列教程PyTorch Tutorialshttps://github.com/MorvanZhou/PyTorch-Tutorial.git著名的“莫烦”PyTorch系列教程转载 2021-07-28 00:11:01 · 1283 阅读 · 2 评论 -
通俗理解循环神经网络(RNN)和LSTM(李宏毅视频课笔记整理)
文章目录0 前言1 RNN1.1 RNN的基本框架1.2 其他类型的RNN模型1.2.1 Jordan Network1.2.2 Bidirectional RNN2 LSTM2.1 简介2.2 LSTM的基本框架2.3 LSTM的一些讨论2.3.1 LSTM和其他模型的关系2.3.2 LSTM解决梯度消失0 前言RNN(Recurrent Neural Network)是一类用于处理序列数据的神经网络,它能挖掘数据中的时序信息以及语义信息。本文以李宏毅老师上课内容为基础,介绍RNN和LSTM的模型原创 2021-07-27 15:04:19 · 1800 阅读 · 1 评论 -
卷积神经网络(CNN)的讲解(李宏毅老师视频课总结,小白快速理解)
0 前言1 引子在图像处理中常有一个问题,比如下图的一只鸟,如果要使得模型识别出鸟的信息,实际上我们并不需要学习整张图片,而是只需要关注特定部位,比如鸟嘴,羽毛等等。此时仅需要获得特定部位“窗口”的信息,就能有好的效果了。基于这种窗口思想,CNN在图像处理上有显著的效果。因为“窗口”的存在,无论鸟嘴在哪个位置,都能探测到:另外对于图片来说,降采样不会改变物体的形态:2卷积神经网络主要由这几类层构成:输入层、卷积层,ReLU层、池化(Pooling)层和全连接层(全连接层和常规神经网络中的一原创 2021-07-26 17:19:02 · 1092 阅读 · 0 评论 -
训练DNN的一些Tips(李宏毅视频课笔记分享)
0 前言训练DNN模型一般会关注两个结果:第一是检查在训练数据上的结果,第二是检查在测试数据上的结果。面对坏结果,大家可能首先想到的是三种情况:陷入了局部最优解?DNN的参数很多,很难有大部分参数都在同一个位置形成一个局部最优解,一般收敛了就是在最优解了,或者离的也不远。欠拟合?欠拟合是因为参数不够多和样本不够多导致,但是对于DNN来说,参数和样本都是极大满足的,很难发生欠拟合的情况;过拟合?如果不仅是在测试数据上差,在训练数据上也很差,那可能就不是过拟合的问题。实际对于DNN训练来说以上三个原创 2021-07-25 13:44:56 · 1400 阅读 · 0 评论 -
全连接神经网络的介绍(多图预警)
前言各种神经网络都是基于全连接神经网络出发的,所以需要先了解最基本的原理,接下来的各种网络也能学得得心应手。全连接神经网络它作为神经网络家族中最简单的一种网络,相信大家看完它的结构之后一定会对它有个非常直观的了解。很简单:左边输入,中间计算,右边输出。可以将整个网络视为一个fff函数:f([00])=[0.510.85]f\left(\left[\begin{array}{l}0 \\0\end{array}\right]\right)=\left[\begin{array}{l}0原创 2021-07-23 22:26:31 · 2255 阅读 · 0 评论 -
主流的深度学习优化方法(SGD,SGDM,Adagrad,RMSProp,Adam)
0 前言介绍主流的深度学习优化方法(SGD,SGD with Momentum,Adagrad,RMSProp,Adam),梯度优化的基本原则是起始的时候降得快,后来降的慢,以此原则来理解下面这些算法。理解不是非常深,有问题希望大家指出。1 SGD一般的梯度下降所用的损失函数会计算所有样本的损失,但是随机梯度下降比梯度下降多了随机两个字,也即用样本中的一个例子的损失值来代替整体的损失。因而随机梯度下降是会带来一定的问题,因为计算得到的并不是准确的一个梯度。如下图,SGD是按照单个样本更新,所以前面几原创 2021-07-22 22:22:30 · 4530 阅读 · 1 评论