Deep Learning2

Deep Learning2

知识点

  1. Bias & Variance: 做N次实验,可以计算Variance和Mean,然后根据均值计算Bias。
  2. Bias:增加模型复杂度,增加特征。Variance:减少模型复杂度,增加数据样本,交叉验证。
  3. 新的优化方法:
  • SGD:
    在这里插入图片描述
  • SGD with momemtum
    在这里插入图片描述
    在这里插入图片描述
  • Adagrad:
    θ t = θ t − 1 − n ∑ i = 0 t − 1 ( g i ) 2 g t − 1 \theta_{t} = \theta_{t-1}-\frac{n}{\sqrt{\sum_{i=0}^{t-1}(g_{i})^2}}g_{t-1} θt=θt1i=0t1(gi)2 ngt1
  • RMSProp:
    θ t = θ t − 1 − η ν t g t − 1 \theta_{t} = \theta_{t-1}-\frac{\eta}{\sqrt{\nu_{t}}}g_{t-1} θt=θt1νt ηgt1
    ν 1 = g 0 2 \nu_1 = g_0^2 ν1=g02
    ν t = α ν t − 1 + ( 1 − α ) ( g t − 1 ) 2 \nu_{t} = \alpha \nu_{t-1}+(1-\alpha)(g_{t-1})^2 νt=ανt1+(1α)(gt1)2
  • Adam
    在这里插入图片描述
  • SGDM vs Adam
    在这里插入图片描述
  1. Word Embedding
  • 把每个词表示成一个固定向量(token)。
  • Contextualized word embedding指的是:word tokens depends on its context,同一个词根据不同的上下文有不同的向量表示。
  1. ELMO(Embeddings from Language Model), 94M个参数
    在这里插入图片描述
  2. BERT(Bidirectional Encoder Representations from Transformers), 340M个参数。
  • 训练方法1:预测词
    在这里插入图片描述
  • 训练方法2,预测两个句子的匹配性
    在这里插入图片描述
  • Example cases
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  1. Generative Pre - Training(GPT),1542M个参数
    在这里插入图片描述
    在这里插入图片描述

  2. Self-Attention Layer
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  3. Seq2seq model
    在这里插入图片描述

  • 输入中文,输出英文
  • 左半部分为encoder,右半部分为decoder
  • Layer Norm
    在这里插入图片描述
  • 可以用Seq2seq的地方都可以用Transformer
  1. Network Compression
  • Network Pruning:脑神经剪枝,就是不需要想那么多。将所有weight按重要性排序,移除不重要的neuron。
    在这里插入图片描述
  • Knowledge Distillation
    学生网络学习老师网络。把所有emsemble的model并起来变成一个模型。

在这里插入图片描述

  • Parameter Quantization
    在这里插入图片描述在这里插入图片描述

  • Architecture Design :插入linear layer
    在这里插入图片描述CNN中filter的应用。

  • Dynamic Computation
    在这里插入图片描述

  1. Pointer Network

在这里插入图片描述

在这里插入图片描述

  1. Recursive Network
  • Example: Sentiment Analysis
    • 输入是一个word sequence
    • 输出是从正向到负向的分级
    • 结构如下 在这里插入图片描述在这里插入图片描述复杂的矩阵操作:
      在这里插入图片描述
      -其他用途:Sentence Relatedness,检测句子相似性。
  1. Anomaly detection
    在这里插入图片描述
  • 用途:让机器知道 ‘我不知道’ 这件事情

  • 问题:给定一个训练集,寻找一个function来检测输入x是否相似于训练数据,是否能被归入训练集

  • 应用:

    • Fraud Detection: 正常刷卡行为? 盗刷?
      Ref: https://www.kaggle.com/ntnu-testimon/paysim1/home
      Ref: https://www.kaggle.com/mlg-ulb/creditcardfraud/home
    • Network Intrusion Detection: 正常网络行为?攻击行为?
      Ref: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
    • Cancer detection:正常细胞?癌细胞?
      Ref: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data/home
  • case1有标签
    在这里插入图片描述

    • 如何衡量异常检测系统的好坏:使用cost table惩罚第一类错误拒真或者惩罚第二类错误纳伪,理论上优先惩罚拒真。
    • 如何得到Anomaly?生成模型生成。
  • case2无标签
    使用maximum likelihood来计算分布概率,使用阈值区分。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • AutoEncoder: 若同类可以很好地还原,不能很好还原的数据即为Anomaly。
    在这里插入图片描述

  • One class SVM

  • Isolation Forest
    在这里插入图片描述

  1. Meta Learning: Learn to learn
  • machine learning:根据资料找一个函数f的能力

  • meta learning:根据资料找一个找一个函数f的函数F的能力

  • Train function F
    在这里插入图片描述

  • Defining goodness of F
    在这里插入图片描述

  • 多个任务训练
    在这里插入图片描述
    在这里插入图片描述

  • Few-shot example:
    在这里插入图片描述

  • MAML
    在这里插入图片描述

  1. Life long learning(LLL)
  • Knowledge Retention
    遗忘:
    在这里插入图片描述
  • Knowledge Transfer
  • Model Expansion
  1. Policy gradient:
    在这里插入图片描述
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值