Deep Learning2
知识点
- Bias & Variance: 做N次实验,可以计算Variance和Mean,然后根据均值计算Bias。
- Bias:增加模型复杂度,增加特征。Variance:减少模型复杂度,增加数据样本,交叉验证。
- 新的优化方法:
- SGD:
- SGD with momemtum
- Adagrad:
θ t = θ t − 1 − n ∑ i = 0 t − 1 ( g i ) 2 g t − 1 \theta_{t} = \theta_{t-1}-\frac{n}{\sqrt{\sum_{i=0}^{t-1}(g_{i})^2}}g_{t-1} θt=θt−1−∑i=0t−1(gi)2ngt−1 - RMSProp:
θ t = θ t − 1 − η ν t g t − 1 \theta_{t} = \theta_{t-1}-\frac{\eta}{\sqrt{\nu_{t}}}g_{t-1} θt=θt−1−νtηgt−1
ν 1 = g 0 2 \nu_1 = g_0^2 ν1=g02
ν t = α ν t − 1 + ( 1 − α ) ( g t − 1 ) 2 \nu_{t} = \alpha \nu_{t-1}+(1-\alpha)(g_{t-1})^2 νt=ανt−1+(1−α)(gt−1)2 - Adam
- SGDM vs Adam
- Word Embedding
- 把每个词表示成一个固定向量(token)。
- Contextualized word embedding指的是:word tokens depends on its context,同一个词根据不同的上下文有不同的向量表示。
- ELMO(Embeddings from Language Model), 94M个参数
- BERT(Bidirectional Encoder Representations from Transformers), 340M个参数。
- 训练方法1:预测词
- 训练方法2,预测两个句子的匹配性
- Example cases
-
Generative Pre - Training(GPT),1542M个参数
-
Self-Attention Layer
-
Seq2seq model
- 输入中文,输出英文
- 左半部分为encoder,右半部分为decoder
- Layer Norm
- 可以用Seq2seq的地方都可以用Transformer
- Network Compression
- Network Pruning:脑神经剪枝,就是不需要想那么多。将所有weight按重要性排序,移除不重要的neuron。
- Knowledge Distillation
学生网络学习老师网络。把所有emsemble的model并起来变成一个模型。
-
Parameter Quantization
-
Architecture Design :插入linear layer
CNN中filter的应用。 -
Dynamic Computation
- Pointer Network
- Recursive Network
- Example: Sentiment Analysis
- 输入是一个word sequence
- 输出是从正向到负向的分级
- 结构如下 复杂的矩阵操作:
-其他用途:Sentence Relatedness,检测句子相似性。
- Anomaly detection
-
用途:让机器知道 ‘我不知道’ 这件事情
-
问题:给定一个训练集,寻找一个function来检测输入x是否相似于训练数据,是否能被归入训练集
-
应用:
- Fraud Detection: 正常刷卡行为? 盗刷?
Ref: https://www.kaggle.com/ntnu-testimon/paysim1/home
Ref: https://www.kaggle.com/mlg-ulb/creditcardfraud/home - Network Intrusion Detection: 正常网络行为?攻击行为?
Ref: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html - Cancer detection:正常细胞?癌细胞?
Ref: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data/home
- Fraud Detection: 正常刷卡行为? 盗刷?
-
case1有标签
- 如何衡量异常检测系统的好坏:使用cost table惩罚第一类错误拒真或者惩罚第二类错误纳伪,理论上优先惩罚拒真。
- 如何得到Anomaly?生成模型生成。
-
case2无标签
使用maximum likelihood来计算分布概率,使用阈值区分。
-
AutoEncoder: 若同类可以很好地还原,不能很好还原的数据即为Anomaly。
-
One class SVM
-
Isolation Forest
- Meta Learning: Learn to learn
-
machine learning:根据资料找一个函数f的能力
-
meta learning:根据资料找一个找一个函数f的函数F的能力
-
Train function F
-
Defining goodness of F
-
多个任务训练
-
Few-shot example:
-
MAML
- Life long learning(LLL)
- Knowledge Retention
遗忘:
- Knowledge Transfer
- Model Expansion
- Policy gradient: