李宏毅【機器學習2021】笔记

只有一半左右,因为主要目标是nlp,剩下的就随缘看了,要杀nlp一个回马枪了!

文章目录


https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php

預測本頻道觀看人數 (上) - 機器學習基本概念簡介

什么是机器学习

机器学习就是让机器具备找一个函数的能力。

例子:

  • 语音识别
  • 图像识别
  • α GO

image-20220303151401751

不同类型的函数

  • Regression: The function outputs a scalar.
  • Classification: Given options(classes),the function outputs the correct one,
  • Structured Learning, create something with structure(image,document)

image-20220303151702930

image-20220303151817393

image-20220303152026894

How to find a function? A Case Study

输入Youtube历史资料输出是第二天的浏览人数

  • Function with Unknown Parameters
  • Define Loss from Training Data
  • Optimization

image-20220303152741986 i

image-20220303153527593

image-20220303153641363

这个图是error surface

image-20220303154220441

步伐取决于斜率和learningrate

Hyperparameters 超参数

Gradient descent并不是总能停在global minima 而是停在了local minima.

该问题可以被解决,并不是gradient descent真正的通点(插眼,我猜是计算量太大,引出随机梯度下降)

image-20220303155114875

image-20220303155404537

image-20220303155902077

写一个新的函数,使得预测函数更加复杂更加符合实际(一周为周期)

image-20220303160601224

似乎观看人数的循环规律止于7之28天之间

預測本頻道觀看人數 (下) - 深度學習基本概念簡介

线性model太简单了

这种情况叫做Model Bias

image-20220303161928270

image-20220303162651714

Sigmoid Function

image-20220303162856520

image-20220303162959828

image-20220303163216198

用多个feature加到一起去近似

image-20220303163431237

引入离散数学:

image-20220303164128593

image-20220303164146976

image-20220303164345044

最终得到image-20220303164410178

重新定义一些符号。。。

image-20220303164649426

至此我们改进了前面提到的机器学习框架的第一步:Function with unknown

课外知识:Hard Sigmoid

Loss

image-20220303165346995

先随机找一组θ初始值,以后可以有更好的方法,而不是随机的。之后根据梯度不断更新。

image-20220303165751938

image-20220303165812728

Batch

将data随机分为多个batch,每次学习一个batch

image-20220303170034535

每更新一次参数(学习一个batch)叫一次update,每更新完一轮data(学习了多个batch)叫一个epoch。

ReLU

image-20220303170611709

image-20220303170642672

image-20220303170650433

实战效果

image-20220303170853283

多层神经网络

image-20220303170931236

实战效果

image-20220303171108801

此即深度学习

Deep = Many hidden layers

image-20220303171659257

为什么不将网络变胖而是把它变深, 留待讲解,插眼。

Overfitting

训练数据loss减少,测试数据loss增大

image-20220303172014330

機器學習任務攻略

Framework of ML

image-20220303173837677

General Guide

image-20220303173913887

Model bias

函数弹性不够大

image-20220303174220131

Optimization Issue

image-20220303174412541

如何判断是model Bias 还是Optimization Issue的原因?

image-20220303174638510

注意training data上的效果, 多出来的层数不进行操作都可以达到20层的效果,弹性应该比他大得多, 说明优化有问题

test data上出现这种情况可能是由于过拟合,但一定要在training data上验证了才可以确定

image-20220303175225883

Overfitting

image-20220303175509274

image-20220303175647299

测试数据过少,模型预测函数的自由度太大(由于弹性太大)。

解决方案

  1. 增加训练资料
  2. Data augmentationimage-20220303180005066
  3. Constrained model(根据实际情况降低model的弹性),限制要适量,过度的话就拟合不出来了。image-20220303180822114

image-20220303180949271

image-20220303181623713

image-20220303182048257

选mse最低的不一定就是最好的model

image-20220303182438942

Cross Validation

image-20220303183009660

N-fold Cross Validation

image-20220303183314584

Mismatch

由于没有将一些情况考虑进去,比如春节,data中不包含春节的经验,所以模型在考虑结果时当然不会考虑到春节的影响。

image-20220303183747747

類神經網路訓練不起來怎麼辦 (一): 局部最小值 (local minima) 與鞍點 (saddle point)

Optimization Fails because…

当 gradient 接近零,学习速度也就接近0,其原因有可能为:

  1. local minima
  2. saddle point
  3. critical point

image-20220303185828184

如何确定到底是哪个原因?

Tayler Series Approximation

image-20220303190237983

可以根据二阶导数来判断:[ToL]

image-20220303190333409

image-20220303190611878

image-20220303190754882

image-20220303192157924

image-20220303192301531

实际上用到的机会少,因为随着模型规模的增大,二阶倒数太难算了

Saddle Point v.s. Local Minima

低维的local minima很有可能是高维的saddle point

image-20220303193046843

Eigen value 为负的话还是有路可以降低loss

類神經網路訓練不起來怎麼辦 (二): 批次 (batch) 與動量 (momentum)

Review

image-20220304103024053

每次epoch重新分batch,每次这样的操作叫一次epoch

Small Batch vs Large Batch

image-20220304103318420

考虑到GPU平行运算的问题更大的batch不一定就比小的batch花的时间多

image-20220304104656601

image-20220304104858844

更新参数所拥有的数据越多,更新越精准,batch越多,更新一次batch的数据越少,噪音越大,然而效果反而更好。

image-20220304105415406

即使train data效果差不多,在test data里小的batch size也会得到更好的效果。

image-20220304105932975

总结

image-20220304110100032

image-20220304110140510

Momentum

image-20220304110343178

image-20220304112920970

image-20220304112957929

image-20220304113126319

所以有种说法说惯性受过去所有运动的影响。

image-20220304113311573

類神經網路訓練不起來怎麼辦 (三):自動調整學習速率 (Learning Rate)

训练卡住了,loss不再下降,并不意味着到了local minima 或者鞍点之类的

image-20220304113647688

这样的点叫Critical point

But training can be difficult even without critical points

image-20220304114234366

步伐(Learning rite)太大会在两边回荡,即critical point, 但是步伐太小又会使学习缓慢

Different Parameters needs different learning rate

image-20220304114813007

image-20220304115102390

image-20220304115136720

RMSProp

image-20220304115536101

image-20220304135729901

Adam

image-20220304144525383

image-20220304145033090

Learning Rate Scheduling

随着终点的临近让学习率下降(Learning rate decay)

image-20220304145205529

Residual Network

在transformer中引用了warm up的方法

image-20220304150125342

Summary of Optimization

image-20220304150534374

两个都考虑所有历史,但是一个更注重方向,一个只注重大小。

Next Time

image-20220304150952610

類神經網路訓練不起來怎麼辦 (四):損失函數 (Loss) 也可能有影響

To learn more

image-20220304151032225

Classification as Regression?

image-20220304151647092

暗示12关系比较近,13比较远,所以不是很可行,所以选择one-hot编码。

image-20220304151854421

image-20220304152006992

SoftMax 将可以为任何值的数值映射到0~1之间

image-20220304152306438

当只有两类时softmax和sigmoid是相同的 (插眼,没太懂)

Loss of Classification

image-20220304152656424

Minimizing cross-entropy is equivalent to maximizing likelihood.

Pytorch Cross-entropy 内含Softmax

为什么相较于MSE Cross-entropy更常被用到

MSE计算loss不容易从loss大的地方走下来,因为那里梯度太小了

image-20220304153548703

類神經網路訓練不起來怎麼辦 (五): 批次標準化 (Batch Normalization) 簡介

Changing Landscape

image-20220304154632827

上图很6

Feature Normalization

Feature Normalization是上图的解决办法,以下是Feature Normalization的一种方法

image-20220304155117462

In general, feature normalization makes gradient scent converge faster.

Considering Deep Learning

image-20220304155830694

image-20220304160019106

image-20220304160308639

image-20220304160723726

Batch Normalization[插眼,没看太懂]

image-20220304161028697

BN in Test

在训练时先将测试时没有的参数算出来

image-20220304161252307

Internal Covariate Shift?

How Does Batch Normalization help Optimization

image-20220304161800822

image-20220304162115627

卷積神經網路 (Convolutional Neural Networks, CNN)

Image Classification

image-20220304162622583

image-20220304162756344

Observation 1 //引出receptive field

y隐藏层一个节点观测图片的一小部分

image-20220304163005423

Simplification 1

receptive field

image-20220304163438134

  • Can different neurons have different sizes of receptive field?
  • Cover only some channels.
  • Not square receptive field?

Typical Setting

Kernel size

stride

overlap

padding

image-20220304164301547

Observation 2 //引出filter

image-20220304164435601

Simplification 2

两个节点照顾的位置不一样,但是参数是一样的

image-20220304164731795

Typical Setting

image-20220304164923467

Benefit of Convolutional Layer

image-20220304165101777

弹性逐渐减小

image-20220304165134571

Convolutional layer //另一种说法

image-20220304165611474

image-20220304165653532

image-20220304165700992

image-20220304165828912

虽然只有3*3,但是后面的层的节点考虑到的会更大

Comparison of Two Stories

image-20220304170144042

image-20220304170236195

Observation 3 //引出pooling

image-20220304170412626

image-20220304170500275

Pooling 把图片变小

image-20220304170540035

最主要的理由是减少运算量

The Whole CNN

Flatten 把所有数值拉直变成向量

image-20220304170715646

Application: Playing Go

下围棋是一个分类的问题

image-20220304170916451

image-20220304171007739

α Go每个棋盘上的位置都有48个属性

Why CNN for GO playing

上面讲的observation跟围棋有相似性。

image-20220304171251950

image-20220304171339209

但要注意下围棋不适合用pooling

More Applications

image-20220304171414066

To learn more

image-20220304171451982

自注意力機制 (Self-attention) (上)

regression输出是一个数值 输入是一个向量

classification 输出是一个类别 输入是一个向量

如果更复杂?

image-20220307104316456

Vector as Input

image-20220307104507177

语音,社交网络,分子结构等可以转化为多个向量作为输入

image-20220307104723704

image-20220307104742682

What is the output?

输入数量与输出数量一致

image-20220307105157313

输入输出数量不一致

image-20220307105424097

Sequence Labeling

输入与输出一样多

image-20220307105846809

I saw a saw

不能用fully-connected network,因为同一个词汇出现两次对于fully-connected network 来说是一样的,所以要用窗口,

但是由于输入长度不一定,窗口也就不一定,由此引出self -attention

Self-attention

image-20220307111131085

Part of attention network

image-20220307111704195

image-20220307112506872

image-20220307112523817

image-20220307112724128

谁的关联性更大,其向量就会更占支配地位,b1就会更像谁

image-20220307113107052

自注意力機制 (Self-attention) (下)

image-20220307113754724

image-20220307114609872

image-20220307114954832

image-20220307135416518

Multi-head self-attention

得到qi,ki,vi后再乘两个矩阵得到两个结果。

image-20220307140025135

image-20220307140123414

Positional Encoding

之前的公式没有结合位置信息

image-20220307140832441

这里每个位置的向量是订好的

后来有了新的动态生成的办法

image-20220307141038425

Application

image-20220307141125110

Speech

用于语音识别时要有所更改,因为语音识别所生成的向量太大了,如果结合所有输入的话计算量可能接受不了。

image-20220307141400333

Image

image-20220307141521417

image-20220307141535227

Self-attention for Graph

image-20220307143348377

To Learn more about GNN

image-20220307143445063

Self-attention v.s. CNN

CNN 可以看作Self-attention的子集,

image-20220307141830783

image-20220307141815004

资料少时用CNN,多时用self-attention,因为self-attention弹性更大(插眼,为啥?),需要的资料更多。

image-20220307142129968

Self-attention vs RNN

RNN:

  • 很难考虑远处的信息
  • 不是平行的

self-attention:

  • 相反

image-20220307143053684

image-20220307143107347

To learn more about RNN

image-20220307143122783

To Learn More

image-20220307143509187

Transformer(上) Encoder

Sequence-to-sequence’s application

transformer 是一个Sequence-to-sequence(Swq2seq) model

输出长度是由模型决定的

image-20220307150909089

由闽南语音直接转为汉字

image-20220307151048819

在翻译倒装句时错误率会更高

Seq2seq for Chatbot

Question Answering 可以理解为Seq2seq model 的问题

image-20220307151925810

Seq2seq for Syntactic parsing

输入句子输出文法分析树

image-20220307152313995

image-20220307152348890

将文法视作一种语言用翻译的模型得到结果

seq2seq for multi-label classification

image-20220307152715773

Seq2Seq for Object Detection

image-20220307152749508

Seq2seq

image-20220307152903671

Encoder

image-20220307153008711

先讲个其他的,再回来进行比对

image-20220307153109367

Block原来更加复杂:

batch normalization:对不同example 不同feature同一dimension 计算mean 和 standard deviation,在这里没有用到,用到的是layer normalization,他是对不同统一example 同一feature的不同dimension计算mean 和standard deviation.

image-20220307154059043

最后回到encoder的结构,其实是一样的

image-20220307154250587

To learn more

image-20220307154339897

Transformer (下) Decoder

image-20220307154510783

Autoregressive(Speech Recognition as example)(AT)

一步错步步错

image-20220307160214593

Decoder

image-20220307160257798

除了篮框这部分其他的和encoder很像,除了multi-attention 加了mask

image-20220307160410167

Masked multi-head attention

在计算b2时没办法把考虑a3,a4,因为还没生成出来,模型是从左至右计算的

image-20220307160750850

image-20220307160804347

Stop Token: We don’t know the correct output length

image-20220307161457882

Non-autoregressive(NAT)

优势在于平行输出,所以时间会变快。而且可以控制输出长度。

image-20220307162150521

To learn more about nat

image-20220307162208729

Encode-Decoder

image-20220307162308131

image-20220307162714666

image-20220307162926098

Cross Attention

image-20220307163404206

train

使用已经有结果的数据

给正确答案,希望输出越接近越好

image-20220307164309157

Teacher Forcing

image-20220307172946935

tips about train seq2seq

Copy Mechanism

image-20220307173231148

To learn more

image-20220307173455607

Summarization

image-20220307173304080

Guided Attention

强迫attention有一定固定的行为,比如语音识别必须由左向右

image-20220307174338215

image-20220307174550435

Beam Search

尝试多种可能性

image-20220307175417463

有争议,很多人说很烂

因为有可能说重复的话,但是加入一点杂音反而会好很多,说明分数最高的路不一定就是最好的答案。

有明确答案的任务效果更好,需要发散思路的问题可能更需要加入杂音。

另外,tts需要加入杂音才能更好的产生结果

image-20220310153700434

Optimizing Evaluation Metrics?

训练用Cross entry评价用BLEU score.

image-20220310154040833

训练和测试不一致(Exposure bias)

训练永远看到的是正确的东西,测试会有错的

image-20220310154657069

Scheduled Sampling

训练时给点错误的

image-20220310154734903

生成式對抗網路 (Generative Adversarial Network, GAN) (一) – 基本概念介紹

Network as Generator

image-20220310161015930

两个结合输出一个新的分布。

为什么要输出一个分布?

由于问题的发散产生了分支(过于发散),这时往往会需要输出一个分支

image-20220310161428703

训练中可能会出现同时向左向右转的现象

image-20220310161619452

image-20220310161925614

GAN

Anime Face Generation

image-20220310162322633

Discriminator

image-20220310162507160

Basic Idea of GAN

两相竞争

image-20220310163007559

Algorithm

discriminator不断的将生成的和实际的图片分类出来,generator为了不被分辨出来儿不断进步

image-20220310163311970

image-20220310163731041

image-20220310163904307

Progressive GAN

image-20220310164410293

生成式對抗網路 (Generative Adversarial Network, GAN) (二) – 理論介紹與WGAN

Our Objective

image-20220311140158414

But it is too hard to compute the divergence

How to solve the problem of divergency(sample and discriminator)

image-20220311140722260

Discriminator

D* 与divergence 相关

image-20220311141404996

image-20220311141710097

image-20220311141916086

can we use other divergence?

image-20220311142056838

Tips of gan

JS divergence is not suitable

image-20220311142740738

如果取样太少的话,命名generator已经取得了进步但是无法在discriminator 体现不出来

image-20220311142826197

只要没有相交js divergence就为log2,但是有可能已经进步了,只不过没有达到那个程度。

image-20220311143400651

Wasserstein distance

让一个分布与另一个分布重合所用的精力

image-20220311143947176

但是当分布复杂时,想让它们重合有不同的moving plan,所以需要穷举。

image-20220311144159911

image-20220311144501598

image-20220311144703645

WGAN

image-20220311145434422

image-20220311145930884

生成式對抗網路 (Generative Adversarial Network, GAN) (三) – 生成器效能評估與條件式生成

GAN is still challenging

如果一方停下了,没办法再前进的话,另一方也会停下。

image-20220311150342006

GAN for Sequence Generation

如果有多个输出且去max的话,那么其他输出的参数因参数的变化而增长是无法体现出来的

image-20220311151119409

image-20220311151243838

For more

image-20220311151415941

image-20220311151423436

为什么用GAN

因为GAN目前效果比VAE FLOW好。。。即使是它比较难train也比其他的方法也不会难太多

Possible Solution

Train一个输入向量,输出图片的模型

image-20220311151853551

Quality of Image

image-20220311152042659

image-20220311152253198

Diversity - Mode Collapse

Discriminator万一有弱点被generator抓到的话。。。

image-20220311152459572

Diversity - Mode Dropping

看似分布和质量都合理,但是其实真实数据比这更大

image-20220311152716994

用分类器分类的结果如果过去集中则可能是这个问题

如果够平均则可能没有这个问题。

image-20220311152928194

image-20220311152935580

Frechet inception Distance(FID)(插眼)

image-20220311153848062

We don’t want memory GAN

产生的跟训练资料的一模一样是不行的

Conditional Generation

Text to image

image-20220311154649317

image-20220311154918368

image-20220311155116997

Application

image-20220311155544191

image-20220311155633673

image-20220311155821568

生成式對抗網路 (Generative Adversarial Network, GAN) (四) – Cycle GAN

Learning from Unpaired Data(无监督)

image-20220311160950161

image-20220311161251161

image-20220311161332878

image-20220311161525671

没有成对的资料来训练

image-20220311161726234

由于有了还原,产生的图片就不能和输入差太多(保证有一些关系(即使很奇怪(暂时还没啥好解法)))

image-20220311161900285

image-20220311162411169

more

image-20220311162435070

image-20220311162524575

SELFIE2ANIME

image-20220311162646942

Text Style Transfer

image-20220311162931032

Other

image-20220311163122634

自督導式學習 (Self-supervised Learning) (一) – 芝麻街與進擊的巨人

image-20220311163636334

自督導式學習 (Self-supervised Learning) (二) – BERT簡介

Self-supervised Learning

image-20220311165359636

Masking Input

image-20220311170046338

Next Sentence Prediction

分辨两个句子是不是该接在一起

被认为不是很有用,model没有学到很多东西

image-20220311170618799

Downstream Tasks 将前面的训练结果用在其他训练上

image-20220311170912465

GLUE

image-20220311171023561

How to use BERT

Case 1 input asq output class

image-20220311171722364

Case 2 input seq output same as seq

image-20220311172214528

Case 3 input two seq output class

image-20220311172540773

image-20220311172558350

Case 4 input document and query output answer

image-20220311172832343

image-20220311173255130

Training BERT is challenging

image-20220311173804867

BERT Embryology(胚胎学)

了解BERT学习到知识的细节

image-20220311173936718

Pre-training a seq2seq model

image-20220311174051298

输入encoder弄坏的数据,decoder输出没坏的数据

image-20220311174144788

自督導式學習 (Self-supervised Learning) (三) – BERT的奇聞軼事

Why does BERT work

同一个字有不同的意义

image-20220314105449128

一个词汇的意思取决于它的上下文

image-20220314110345369

Applying BERT to protein,DNA,music classification

image-20220314111554974

image-20220314111616272

Multi-lingual BERT

训练在英文反而在中文的test上取得了进步

image-20220314111954632

image-20220314112004247

Cross-lingual Alignment(一种解释)

image-20220314112242298

image-20220314112701789

似乎不同语言向量的差异就是语言的信息?

image-20220314112843223

image-20220314113023958

自督導式學習 (Self-supervised Learning) (四) – GPT的野望

如下,只不过是数据量特别大

image-20220314113548845

How to use GPT

image-20220314114228746

Few-shot learning (no gradient descent) “In-context” Learning

只用很少的资料去训练。效果见仁见智

image-20220314114438407

image-20220314114526420

Beyond Text

image-20220314114700178

Image

image-20220314114801920

image-20220314114841612

Speech

语音方面暂时没有公认的像GLUE的资料库

image-20220314114939626

他自己做了一个

image-20220314115057788

Application of self supervised

image-20220314115333201

自編碼器 (Auto-encoder) (上) – 基本概念

Outline

image-20220314134255650

review of self-supervised learning frame work

学习没有标注资料的任务,在有bert gpt之前,就有了auto-encoder。

auto-encoder in image

Dimension reduction

image-20220314134751495

for more

image-20220314134822953

Why auto-encoder?

image-20220314135524915

并不是3*3的向量都是图片,其形式是有限的,所以可以用更小的维度表示3*3的图片。

image-20220314135442811

Auto-encoder is not a new idea

image-20220314135619740

De-noising Auto-encoder

image-20220314140040870

image-20220314140324449

自編碼器 (Auto-encoder) (下) – 領結變聲器與更多應用

Feature Disentangle

分解中间向量,理解其信息

Representation includes information of different aspects

image-20220314140525936

image-20220314140612916

Application: voice conversion

不需要资料库中两个人说一样的话。

image-20220314141012317

discrete representation

image-20220314141405868

image-20220314141736842

image-20220314141833087

固定输出的可能性,不是无限的而是离散的

Text as representation

image-20220314142133471

强迫encoder train出人话一样的中间向量。

image-20220314142307092

image-20220314142410154

image-20220314142442444

Tree as Embedding

image-20220314142514373

Generator

image-20220314142624201

Compression

image-20220314142742720

Anomaly Detection

image-20220314142932175

image-20220314143015788

用来探测异常交易,异常请求,异常病情等

和分类器还是有区别的,因为训练资料大多数只有一类

image-20220314143326176

image-20220314143418074

image-20220314143443674

For More

image-20220314143556606

來自人類的惡意攻擊 (Adversarial Attack) (上) – 基本概念

Motivation

需要在有人试图欺骗他的情况下正常工作

image-20220314143801762

How to arrack

Example of attack

image-20220314144113467

image-20220314144315367

image-20220314144325514

正常的错误应该是这样的

image-20220314144533270

含恶意的噪音

尽量让正确的目标概率变小,让目标概率变大,同时尽量让差距小于人类能感知的差异的最小值

image-20220314151015068

Non-perceivable

image-20220314151407433

Attack Approach

image-20220314152519619

image-20220314152905906

來自人類的惡意攻擊 (Adversarial Attack) (下) – 類神經網路能否躲過人類深不見底的惡意?

White Box vs Black Box

image-20220314153222740

Black Box

image-20220314153412201

image-20220314154050031

不同的数据产生的结果截然不同

image-20220314154500629

One pixel attack

只改变一点导致结果改变

image-20220314154808782

Universal Adversarial Attack

image-20220314154841529

Beyond Images

image-20220314155241385

Attack in the Physical World

image-20220314155630581

Backdoor in Model

image-20220314160459014

Solution

模糊化,让攻击信号被改变

image-20220314160922185

image-20220314160910483

但是如果被知道了使用了这种方法,攻击时也可以加上这个,所以可以加上随机性

image-20220314161213775

## Proactive Defense

自己攻击自己然后把攻击数据学习进去

image-20220314161820428

image-20220314162136755

機器學習模型的可解釋性 (Explainable ML) (上) – 為什麼類神經網路可以正確分辨寶可夢和數碼寶貝呢?

Why we need Explainable ML?

image-20220314162821135

image-20220314162835563

Interpretable vs powerful

image-20220314163028426

image-20220314163111887

image-20220314163334420

Goal of Explainable ML

image-20220314163927285

人们只是需要一个理由去接受 - .-

Explainable ML

image-20220314164155673

Local Exception

改造或删除某部分导致结论错误,那么它就是原因

image-20220314164414637

image-20220314164642441

更改向量的值,计算偏导数,得出是哪个参数更重要

Saliency Map

image-20220314164936108

A test

image-20220314165245766

image-20220314165232008

结果是由于数据错误,,,背景问题

image-20220314165405405

image-20220314165415412

因为介绍文字而判断图片

image-20220314165519831

SmoothGrad

image-20220314165641944

Gradient Saturation

如果在平滑处取导数的话会得出鼻子长度与判读大象无关的结论

image-20220314165857732

image-20220314165946718

How a net work process the input data

为了观察过程压缩中间向量的维度

image-20220314170144183

image-20220314170511238

很多问题尚待研究。。

image-20220314170659716

用探针处理中间向量

但注意Classifier的正确情况

image-20220314170851046

example

image-20220314171208635

在不同层加探针看语音到底在那里失去了性别信息,或者杂音。

image-20220314171551251

機器學習模型的可解釋性 (Explainable ML) (下) –機器心中的貓長什麼樣子?

What does a filter detect?(插眼,他在说什么)

通过filter观察模型在观察什么

image-20220314175448144

图示是某个filter

image-20220314175637568

下图是被攻击了,命名看不出来是什么,机器却觉得是0123456789。

image-20220314175821937

image-20220314181454529

要得到如下的结果要大量的知识和处理。

image-20220314181543310

或者通过generator达到目的(插眼,他在说什么)

image-20220314181845733

并不是在乎机器真正的注意点,而是将注意点转成人能理解的形式

Outlook

用简单的linear模型模拟复杂的deep learning模型,再用简单的模型理解复杂的模型

image-20220314182334820

概述領域自適應 (Domain Adaptation)

Domain shift

有一些改变就会犯错

image-20220315103810740

image-20220315104344563

需要考虑两种情况

image-20220315104603745

image-20220315104805665

Basic idea

image-20220315104903362

Domain Adversarial Training

image-20220315105143945

Domain Classifier用来分辨是黑白的还是彩色的,训练到它分别不出来且loss不再下降

image-20220315111113121

image-20220315111225175

Limitation(插眼)

image-20220315111608905

image-20220315111724707

Outlook

有两者数据不完全重合的情况

image-20220315111818652

More condition in domain Adaptation

little unlabel

image-20220315112056270

Know nothing

image-20220315112136861

Domain Generation

image-20220315112247065

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值