2020年05月_逝水留痕9611

原创李宏毅《机器学习》课程笔记（作业十一：GAN）

GAN包含辨别器和生成器，是一个对抗的关系，用adversarial。是无监督的学习方式。可以将其看成老师和学生的关系。注意辨别器和生成器是轮流训练的，输入是一个随机的向量，最后的输出是一个标量。训练一个的时候把另外一个固定住不更新梯度值。对于辨别器，优化目标是两个部分，使得真实图像得分高而生成的图像得分低。结构化学习，输出不再是一个简单的向量，而是一个句子，一张图片或者一棵树等等。One-shot learning, 如果我们把每一张图片看做一个class，所以每个类别只出现一次，有些甚至

2020-05-12 12:33:28 1418

原创李宏毅《机器学习》课程笔记（作业十：异常侦测）

我们在test的时候，让机器自动的知道这个东西跟训练集里的数据是类似的还是不类似的。我们无法把异常的资料视为一个类别，因为异常的东西类型太多了，而且异常的资料太难收集到了。可以在输出类别的时候同时输出一个信心分数，如果高于一个信心分数，就可以判断是正常的数据。可以用分类时分布中最大的那个值直接作为信心分数。或者可以用墒。虽然很简单，但是往往不弱。也可以直接输出一个信心分数，可以参考文献。在异常侦测里面，准确率不是一个好的评估方法，所以需要一个好的评估方法，没有一般性的方法，可以用AUC。

2020-05-12 12:32:36 380

原创李宏毅《机器学习》课程笔记（作业九：无监督学习）

Kmeans方法，先初始化K个中心，每次都把每个元素归类到最近的类，再更新中心，再更新分类。HAC的方法，有点类似，把最近的pair取平均作为新的data，然后搞成一个树，再在树上切一刀来分类，好处是不需要先决定K。PCA有了新的的理解，其实是贪心地找使得variance最大的那个w，之后通过这些w的线性组合就可以了。PCA也是个降维的方法，他能够使得复原出的向量跟输入的向量最接近。其实相当于一个单隐层的神经网络，但是因为它各个维度是互相垂直的，所以会比梯度下降求出来的更好。PCA找出来的可能不是一

2020-05-12 12:32:00 557

原创李宏毅《机器学习》课程笔记（作业八：seq2seq）

怎么样生成一个有结构的东西。可以用RNN依次产生序列的元素。在智能对话等等场景中，是”有条件的生成“。核心的思路是用一个encoder把输入变成一个vector，再用一个decoder输入这个vectorAttention就是一种动态的条件生成网络。待后续补充...

2020-05-12 12:31:28 955 1

原创李宏毅《机器学习》课程笔记（作业七：模型压缩）

有多种模型压缩的方法。第一个是网络剪枝，因为神经网络往往是过度参数化，所以删掉一部分网络参数。先训练好一个大的神经网络，然后评估每个参数是否重要，评估方法其实就是看是否接近0。然后把不重要的东西移除。用新的网络重新训练一下，update一下参数，可以把损伤移除。注意一次不删掉很多，怕恢复不回来，所以迭代地删除参数。那么为什么不直接训练一个小的神经网络呢？因为小的神经网络比较难训练。大的NN比较好优化。有个大乐透假设，每个小的网络是复式彩票中的一个，所以容易训练出来。是删除权重好，还是删除神经元。

2020-05-12 12:30:46 544

原创李宏毅《机器学习》课程笔记（作业六：对抗攻击）

为了将机器学习在实际生活中应用上，需要考虑一些恶意攻击。无目标攻击：攻击的时候，固定模型参数，希望调整输入数据，使得效果越差越好有目标攻击：不仅跟原来的答案越远越好，而且要跟希望的错误答案越接近越好限制是我们输入的攻击的数据跟正常的数据非常接近。那么怎么找输入数据呢？还是用梯度下降。考虑距离限制以后需要一个修改版的梯度下降，每次做了梯度下降以后判断是否符合距离条件，如果不符合等比例缩小就可以了。FGSM是一种很简单的方法，直接对输入数据x做梯度下降，然后对每一个维度取梯度的signal作

2020-05-12 12:29:35 745

原创李宏毅《机器学习》课程笔记（作业五：可解释的人工智能）

可解释的人工智能有两种方案，一种是局部的可解释性，一种是全局的。局部的方案的一种想法，把一个图片用灰色的方块蒙上一块，看是否还能识别出来，这个时候要注意方块的大小甚至颜色都可能有影响。另一个想法是，把一个输入feature做。一点点小的调整，看输出数据的变化大小，据此来判断什么输入feature比较重要，其实就是偏微分。这样可能出现饱和的问题，大象鼻子的问题，可能发现不了重要的feature。这两种方法都是有可能出现恶意攻击的。全局解释的方案是这样的，我们希望知道一个模型他心里最典型的猫长什

2020-05-12 12:29:05 848

原创李宏毅《机器学习》课程笔记（作业四：RNN）

RNN和半监督学习需要后面补上。word embedding是想做一个什么事情呢，是希望把词汇用一个比较短的向量表达出来，因为通常的词汇的表达是通过一个非常长的（词典那么长的）1-of-N向量来表达，这样的表达没有信息，我们希望能用一个短向量（例如10或100维）来表达词汇，就需要每个维度表达一些信息，希望含义相近的词汇他们的向量也比较接近。这是一种无监督学习。那么怎么做呢？有两种方式，一种是基于计数的，一种是基于预测的。基于计数的就是看两个词汇同时出现的次数，用两个向量的内积与这个..

2020-05-12 12:28:33 1010

原创李宏毅《机器学习》课程笔记（作业三：反向传播）

深度学习里面的梯度下降中，在计算梯度的时候有两个过程，分别是前向过程和反向过程，很容易理解。然后在用sigmod作为激活函数的时候，会出现梯度衰减的问题，导致第一层还只做了一点点梯度下降的时候最后一层已经训练好了。为了解决这个问题，2006年最早的文章使用PRM来逐层训练，成功避免了这个问题。但是这样非常复杂。后来hilton提出了一个新的方法，使用ReLU，变成了线性的激活函数。虽然单个神经元是linear的，但是不同的值导致active的神经元不太一样，所以整个网络还是nonlinear的。

2020-05-12 12:27:48 349

原创李宏毅《机器学习》课程笔记（作业二：分类）

为什么不能直接用回归的方式来做分类的问题，因为在回归里面，可能同一类里面的样本点他们的feature差异很大，但是lable都是1，这就要求求出来的model兼顾所有的样本点，那么可能导致model性能较差。下图表现的非常清晰。在做分类的时候，用到贝叶斯公式，可是公式中的P(x|C1)应该怎么算呢？因为面对一个新的x的时候训练数据里没有。这个时候我们把训练数据假设是一个高斯分布得到的，所以找出最优（最大可能性）的高斯分布，再去计算新的x产生的概率。有趣的是，这里用到的并不是真正意义上的“概率”，而是

2020-05-12 12:27:03 619

如花美眷，似水流年~