李宏毅机器学习
文章平均质量分 70
chairon
吃的太多,学的太少。
展开
-
李宏毅机器学习笔记:半监督学习
原创 2022-04-15 17:04:06 · 160 阅读 · 0 评论 -
李宏毅机器学习笔记:GAN
GAN的评估方法分类器输出概率,但是会导致Mode Collapse(生成数据分布非常相似),这个问题目前还无法解决。Model Dropping:生成的数据多样性不够。多样性:让生成的图片通过分类器输出所有概率分布,再求每个类别的平均概率分布,如果比较集中则多样性不够。FID:将分类网络softmax输出之前的向量抽象到某一维度(假设服从高斯分布),然后计算与真实数据之间的距离Conditionnal GAN通过输入文字和向量Z产生图片,文字限定生成图片属性,训练的文字和图片需要成对通过原创 2022-04-15 17:02:41 · 132 阅读 · 0 评论 -
各种 Self-Attention
self-attention只是网络中的一小部分,但是当输入序列N很大的时候,网络的计算量大多数会来自于self-attention,其计算量和输入序列N2N^2N2成正比。什么时候输入的N会很大呢?当输入是图像的时候。假设每一个像素作为一个输入,256x256的图片输入的N=2562256^22562,self-attention的计算量则是2564256^42564减少计算量1. Local Attention/Truncated Attention2. Stride Attention原创 2022-04-02 16:36:40 · 926 阅读 · 0 评论 -
李宏毅机器学习笔记——Transformer
Seq2seq输入一串序列,输出一串序列,但不知道序列长度,由机器自己决定。eg.语音识别、翻译、多标签分类、目标检测TransfomerEncoderTransform用的layer Nominationdecoder1. Autorgressive上一个decoder的输入是下一个的输入:如果上一个输出错误,也会影响下一步的预测;输出是一个个产生的,串行,只能考虑左边的拥有begin和end标志mask self-attention:只考虑左边的输入;self-attent原创 2022-03-16 15:11:28 · 1356 阅读 · 0 评论 -
李宏毅机器学习笔记:非监督学习——word Embedding
引入想要知道这些单词种类之间的关系(动词?名词?行为?)即World Embedding是非监督的如何寻找它们的关系?(上下文之间的关系)1. count based如果WiW_iWi,WjW_jWj经常一起出现,那么V(Wi)V(W_i)V(Wi)和V(Wj)V(W_j)V(Wj)的值就比较相近,尽量让它们的内积等于它们在文中同时出现的次数Prediction based输入第n-1个输入,得到第n个输出是某个单词的概率(用前面的单词雨愁眠的,不一定只是用前面一个单词,也可以原创 2022-03-15 16:49:10 · 1114 阅读 · 0 评论 -
李宏毅机器学习笔记:自注意力机制
自注意力机制1. self-attention关注输入数据的全局信息没有考虑位置信息计算量是序列长度的平方每个输入ai乘以不同的矩阵,得到向量q、k、v,q表示查询向量,用q乘以所有输入的k向量得到的值再进行sigmoid归一化,作为输入a的权重和输入a的v向量进行点乘,加起来就得到了a对应的输出:bi把全部输入看成一个向量I,分别乘以WqW^qWq,WkW^kWk,WvW^vWv(模型学习出来的参数),得到Q、K、VK的转置乘以Q得到Attention的分数A,再对每一列进行归一化原创 2022-03-15 11:40:54 · 1352 阅读 · 0 评论 -
李宏毅机器学习笔记13:Why Deep
Why Deep?本文主要围绕Deep这个关键词展开,重点比较了shallow learning和deep learning的区别:shallow:不考虑不同input之间的关联,针对每一种class都设计了一个独立的model检测deep:考虑了input之间的某些共同特征,所有class用同个model分类,share参数,modularization思想,hierarchy架构,更有效率地使用data和参数Shallow V.s. DeepDeep is Better?我们都知道dee原创 2021-01-05 16:00:13 · 236 阅读 · 0 评论 -
李宏毅机器学习笔记12:RNN(2)
Recurrent Neural Network(Ⅱ)上一篇文章介绍了RNN的基本架构,像这么复杂的结构,我们该如何训练呢?Learning Target1. Loss Function依旧是Slot Filling的例子,我们需要把model的输出yiy^iyi与映射到slot的reference vector求交叉熵,比如“Taipei”对应到的是“dest”这个slot,则reference vector在“dest”位置上值为1,其余维度值为0RNN的output和referenc原创 2021-01-05 14:19:28 · 303 阅读 · 0 评论 -
李宏毅机器学习笔记11:CNN(2)
Convolutional Neural Network part2这篇文章就讲述了三个问题:What does CNN do?Why CNN?How to design CNN?What does CNN learn?what is intelligent要分析第一个convolution的filter是比较容易的,因为第一个convolution layer里面,每一个filter就是一个3*3的matrix,它对应到3*3范围内的9个pixel,所以你只要看这个filter的值原创 2021-01-05 13:35:44 · 217 阅读 · 0 评论 -
李宏毅机器学习笔记10:RNN(1)
Recurrent Neural Network(Ⅰ)RNN,或者说最常用的LSTM,一般用于记住之前的状态,以供后续神经网络的判断,它由input gate、forget gate、output gate和cell memory组成,每个LSTM本质上就是一个neuron,特殊之处在于有4个输入:zzz和三门控制信号ziz_izi、zfz_fzf和zoz_ozo,每个时间点的输入都是由当前输入值+上一个时R间点的输出值+上一个时间点cell值来组成IntroductionSlot Fill原创 2021-01-02 10:55:03 · 195 阅读 · 0 评论 -
李宏毅机器学习笔记9:CNN(1)
Convolutional Neural network(part 1)CNN常常被用在影像处理上,它的theory base就是三个property,和两个架构convolution 架构:针对property 1和property 2max pooling架构:针对property 3Why CNN for Image?CNN V.s. DNN我们当然可以用一般的neural network来做影像处理,不一定要用CNN,比如说,你想要做图像的分类,那你就去train一个neural n原创 2020-12-29 15:30:17 · 574 阅读 · 0 评论 -
李宏毅机器学习笔记8:Optimization
New Optimizers for Deep Learning梯度下降:SGDSGD with momentumAdaptive learning rate:AdagradRMSPropAdamSome Notations????t∇????(????????)???? ????+1在step t时的参数下降的梯度前面t步积累的动量,用来计算????????+1Optimization’s aim找到一个参数 ???? 使属性x的损失函数总和最小,原创 2020-12-15 20:16:38 · 604 阅读 · 0 评论 -
李宏毅机器学习笔记7:Keras
Keras2.0Why Keras你可能会问,为什么不学TensorFlow呢?明明tensorflow才是目前最流行的machine learning库之一啊。其实,它并没有那么好用,tensorflow和另外一个功能相近的toolkit theano,它们是非常flexible的,你甚至可以把它想成是一个微分器,它完全可以做deep learning以外的事情,因为它的作用就是帮你算微分,拿到微分之后呢,你就可以去算gradient descent之类,而这么flexible的toolkit学起来是原创 2020-11-23 14:57:17 · 351 阅读 · 0 评论 -
李宏毅机器学习笔记6:Backpropagation
BackpropagationBackpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法1. Gradient Descentgradient descent当它用在neural network的时候,network parameters θ=w1,w2,...,b1,b2,...\theta=w_1,w_2,...,b_1,b_2,...θ=w1,w2,.原创 2020-11-17 13:27:49 · 208 阅读 · 0 评论 -
李宏毅机器学习笔记5:Deep Learning
Deep Learning实际上,Deep learning跟machine learning一样,也是“大象放进冰箱”的三个步骤:在Deep learning的step1里define的那个function,就是neural networkNeural Networkconcept把多个Logistic Regression前后connect在一起,然后把一个Logistic Regression称之为neuron,整个称之为neural network我们可以用不同的方法连接这些neur原创 2020-11-14 19:20:53 · 262 阅读 · 0 评论 -
李宏毅机器学习笔记4:Logistic Regression
Logistic RegressionReview在classification这一章节,我们讨论了如何通过样本点的均值uuu和协方差Σ\SigmaΣ来计算P(C1),P(C2),P(x∣C1),P(x∣C2)P(C_1),P(C_2),P(x|C_1),P(x|C_2)P(C1),P(C2),P(x∣C1),P(x∣C2),进而利用P(C1∣x)=P(C1)P(x∣C1)P(C1)P(x∣C1)+P(C2)P(x∣C2)P(C_1|x)=\frac{P(C_1)P(x|C_1)}{P(C_1)原创 2020-10-16 12:18:33 · 209 阅读 · 0 评论 -
李宏毅机器学习笔记3:Classification
Notes1.questionsQ:多分类问题为什么不可以直接当作回归问题?A:类别1变成数值1,类别2变成数值2,类别3变成数值3……暗示类别1与类别2比较接近,与类别3比较远,实际上并无此关系。当然,确实有将多分类当做回归来解的模型(感知机,SVM等),但是需要修改损失函数。Q:为什么是生成模型?A:假设数据遵循一个均值为μ \muμ、协方差矩阵为Σ \SigmaΣ的高斯分布。利用从高斯分布中生成数据的概率,即似然(likelihood),来估计P ( x ∣ C 1 )原创 2020-10-10 16:18:06 · 478 阅读 · 0 评论 -
李宏毅机器学习笔记2:Gradient Descent
梯度下降求θ1, θ2使损失函数最小。梯度下降方向:沿着等高线的法线方向。梯度下降要点1. 调整你的学习率使损失函数越来越小Adaptive Learning Rates2.Adaptive Learning Rates2.1 Adagrad等价于因为:(所有导数的平方的均值,再开根号)造成反差的效果2.2 Stochastic Gradient Descent一次只使用一个样本进行梯度下降更快3 Feature Scaling让不同的原创 2020-10-08 15:43:27 · 138 阅读 · 0 评论 -
李宏毅机器学习笔记1:Regression
损失函数梯度下降随机初始化起始位w0在w0处对损失函数求导(偏导)w1=w0-学习率*w0处的倒数一直重复计算,直到导数为0,或者达到最大迭代次数。Generalization泛化 (generalization) 是指神经网络对未在训练 (学习) 过程中遇到的数据可以得到合理的输出。使真实数据的误差更小。一个更复杂的模型可以使训练集上的误差更小,但是不一定能使测试集上的误差也更小(过泛化)损失函数+很小的wi,可以使预测的函数曲线更加平滑。多平滑?????的选择原创 2020-10-08 15:13:20 · 163 阅读 · 0 评论