机器学习
文章平均质量分 90
snoopy_21
这个作者很懒,什么都没留下…
展开
-
笔记:ML-LHY-GAN
视频pdf1. introductionBasic Idea of GAN注意上面最后一行是加号算法大致:随机初始化Generator参数。迭代第k次(k1=1k_1 = 1k1=1):从真实图片中采样m笔数据:{x1,x2,…,xm}\left\{x^{1}, x^{2}, \ldots, x^{m}\right\}{x1,x2,…,xm},标签为真从某个分布中随机采样m笔噪音数据:{z1,z2,…,zm}\left\{z^{1}, z^{2}, \ldots, z^{m.原创 2021-02-25 22:34:25 · 214 阅读 · 0 评论 -
pytorch中的NLLLoss和CrossEntropy
直接计算CrossEntropyimport torchimport torch.nn.functional as F先按照流程手动计算CrossEntropyclass_dim = 3z = torch.Tensor([[3, 1, -3]])ztensor([[ 3., 1., -3.]])softmax过程,图片来自这里y = torch.nn.Softmax(dim=1)(z)ytensor([[0.8789, 0.1189, 0.0022]])注意:交叉熵在信息论原创 2021-01-30 16:44:47 · 422 阅读 · 1 评论 -
笔记:ML-LHY: ELMO, BERT, GPT
Embeddings from Language Model (ELMO),做的是Contextualized Word EmbeddingBidirectional Encoder Representations from Transformers (BERT),其实就是Encoder of Transformer,训练方法,以及应用示例:Sentiment analysis, Document Classification, Slot filling, Natural Language Infere.原创 2021-01-18 00:06:46 · 236 阅读 · 0 评论 -
笔记:ML-LHY: Transformer / Self-attention
Sequence用RNN很难并行训练/推理,计算b4b^4b4时必须先计算b1,b2,b3b^1,b^2,b^3b1,b2,b3。考虑用CNN,虽然可以做到并行训练/推理,但是需要叠很多层,才能包含长序列。而使用Self-Attention,可以取得RNN,并且是可以并行计算。Self-Attention使用Self-Attention Layer,bib^ibi包含了所有输入信息,同时b1,b2,b3,b4b^1, b^2, b^3, b^4b1,b2,b3,b4可以同时计算。Atten原创 2021-01-17 15:21:20 · 203 阅读 · 1 评论 -
笔记:ML-LHY: Recursive Structure
简单介绍RNN更通用的一个递归结构Recursive Structure,在Sentiment Analysis 情感分析上应用。pdf 视频Recurrent Structure and Recursive StructureSentiment Analysis 情感分析上面fff都是同一个Function(hidden layer参数一样),循环网络可以看成是递归网络的特例。Recursive Modelf函数需要设计成这样:即输入2个词需要相乘,但是xTWxx^TWxxTW.原创 2021-01-17 11:17:55 · 184 阅读 · 0 评论 -
笔记:ML-LHY: Attention-based Model / Conditional Generation by RNN & Attention
本节课主要介绍介绍Attention基础,Attention在Memory上2个位置应用:1.Attention on Sensory Information(包括在sequence:Translation,Speech Recognition,Caption Generation,Question Answering和image上示例)2.Attention on Memory(介绍Neural Turing Machine和Stack RNN)pdf 视频AttentionAttent.原创 2021-01-16 12:50:30 · 269 阅读 · 0 评论 -
【温故知新】Least Squares、Ransac、Gradient Descent、PCA 拟合直线(附c++代码)
Least Squares对于2维数据点,待求参数为(k,b)(k,b)(k,b)。即求直线y=kx+by=kx+by=kx+b拟合数据点(x1,y1)......(xi,yi)\left(x_{1}, y_{1}\right) .... . .\left(x_{i}, y_{i}\right)(x1,y1)......(xi,yi),截距式不能表示竖直直线。最小二乘法,又称最小平方法。它通过最小化误差的平方和寻找数据的最佳函数匹配求点到直线的误差平方和:f=∑i=1n(yi−k∗xi原创 2020-12-02 00:13:39 · 1140 阅读 · 0 评论 -
笔记:ML-LHY: 李宏毅 (Hung-yi Lee) Machine Learning (2017,Spring) 总结
ML-LHY-1 Regression机器学习最简单的入门算法就是线性回归了,从这里出发开始学习机器学习本节课主要介绍使用梯度下降方法求解线性回归机器学习解决方法建模常规分为3个步骤:1.确定目标函数,其中带有未知参数θ\thetaθ2.如何表达参数θ\thetaθ对模型影像,即损失函数的确定,在参数θ\thetaθ确定的目标函数下与真实值的差异3.找到最符合数据的目标函数的参数θ\thetaθ,例如使用:梯度下降梯度下降概念和原理,正则化防止过拟合pdf 视频ML-LHY-2 Wh原创 2020-10-31 17:35:00 · 997 阅读 · 0 评论 -
笔记:ML-LHY-23: Deep Reinforcement Learning
Scenario of Reinforcement Learning强化学习大致流程强化学习:输入:Observation(State)Actor/Policy 产生Action输出:Action (改变环境)环境反馈 RewardPolicy-based Approach参照机器学习3个步骤:Step 1: define a set of function (Neural network as Actor)输入:图像 最后转向量或者矩阵输入输出:对应输入的action使用原创 2020-10-30 23:31:41 · 247 阅读 · 0 评论 -
笔记:ML-LHY-22: Ensemble
Framework of Ensemble简单来说,Ensemble就是组合多种不同的模型进行学习的方式。Bagging简单的model:大的Bias,小的Variance复杂的model:小的Bias,大的Variance组合的情况下,Error rate随着model的复杂度下降然后又升高。有多个复杂的model进行平均,就能达到小的bias和小的variance。bagging要做的就是这个事情。步骤:对原来训练数据进行放回采用,比如上面采样4次,有可能一笔数据在多个子集合用到原创 2020-10-25 21:55:45 · 345 阅读 · 0 评论 -
笔记:ML-LHY-20: Support Vector Machine (SVM)
下面先来说下 Hinge Loss 是什么。Binary Classification对于经典的而分类问题,之前已经提到可以使用逻辑回归解决,之前label使用0和1标记。现在label用-1和1来标记。同样,分3步骤:设计模型 Function set(Model) 损失函数 找最好的模型(训练)• Step 1: Function set (Model)理想的模型输出:g(x)=f(x)>0 Output =+1f(x)<0 Output&n.原创 2020-10-25 13:22:19 · 214 阅读 · 0 评论 -
笔记:ML-LHY-19: Transfer Learning
Transfer Learning迁移学习定义要做的是存在不直接相干数据,期望帮助当前任务。比如当前分类是cat和dog,有以下2中不直接相干数据:同领域,不同任务不同领域,同任务为什么要进行迁移学习,其目的就是当前任务直接相关的数据太少了,我们期望在其他不直接相关的数据上学习,而不直接相关的数据是大量的。然后在不直接相关的数据上充分学习,在使用当前任务少量数据迁移。OverviewTarget Data 是当前任务相关数据Source Data 是和当前任务不直接相关数据Mode原创 2020-10-21 22:46:06 · 264 阅读 · 0 评论 -
笔记:ML-LHY-17/18: Unsupervised Learning - Deep Generative Model
主要介绍无监督学习中的生成模型。传统利用RNN的Pixel RNN经典的Auto-Decoder和VAE(变分自动编码器),以及解释在概率上的VAE做法,和存NN的联系最近比较流行的GAN视频1 视频2 pdfPixel RNN训练一个RNN:看到第1个pixel就输出第2个推理pixel。看到第1、第2个pixel就输出第3个推理pixel。看到第1、第2个、第3个pixel就输出第4个推理pixel。…比如有一张真实的图:如果遮挡一部分,然后输入Pixel RNN:得.原创 2020-10-18 19:13:48 · 459 阅读 · 0 评论 -
笔记:ML-LHY-16: Unsupervised Learning - Auto-encoder
更详细介绍了Auto-encoderAuto-encoder在文本与图像的应用CNN上的Auto-encoder视频 pdfAuto-encoder既有Encoder和Decoder就可以互相学习组成Auto-encoderPCAPCA也存在类似结构,c是低维输出,所以也称为Bottleneck layer。Hidden layer的输出就是Encoder的输出。Deep Auto-encoder受限玻尔兹曼机(RBM)初始化(和多层感知机的区别就是有无使用RBM初始化然后进行G.原创 2020-10-17 18:14:18 · 230 阅读 · 0 评论 -
笔记:ML-LHY-15: Unsupervised Learning - Neighbor Embedding
介绍了3中非线性降维方法LLE基于相邻点的关系,然后在低维空间保持这种关系Laplacian Eigenmaps基于图结构的关系,然后在低维空间保持这种关系t-SNE基于分布的关系,然后在低维空间保持这种关系,巧妙利用不同相似度函数实现拉开不同类视频 pdfManifold Learning非线性降维在之前的Unsupervised Learning - Linear Methods说到PCA是没法做非线性变换的,比如下面:通过降维,可以使用欧氏距离计算距离。比如左边在高维空间蓝色点和红.原创 2020-10-14 23:39:54 · 196 阅读 · 0 评论 -
笔记:ML-LHY-14: Unsupervised Learning - Word Embedding
Word EmbeddingCount based这种方法和LSA类似:如果wiw_iwi和wjw_jwj经常成对出现,那么用一个向量表示的V(wi)V(w_i)V(wi)和V(wj)V(w_j)V(wj)内积的值就会比较大。所以和LSA类似,可以用GD求隐含向量表示。Prediction based这个方法思想很巧妙,利用文章中句子的词语顺序作为标签,训练一个神经网络,大致训练过程如下:那么这个网络我们并不是要网络的输出,而是用第一个隐藏层的输出作为一个词语的隐含向量表示:原创 2020-10-13 00:17:57 · 273 阅读 · 0 评论 -
笔记:ML-LHY-13:Unsupervised Learning - Linear Methods
Unsupervised Learning无监督学习有2种原创 2020-10-08 21:38:07 · 199 阅读 · 0 评论 -
笔记:ML-LHY-21: Recurrent Neural Network(RNN) 循环神经网络
有这么一个任务例子:上图假设是一个订票系统上,输入 “Arrive Taipei on November 2nd” ,我们设置几个槽位(Slot),希望算法能够将关键词’Taipei’放入目的地(Destination)槽位,将November和2nd放入到达时间(Time of Arrival)槽位,将Arrive和on放入其他(Other)槽位,实现对输入序列的一个归类,以便后续提取相应信息。这个过程称为槽位填充(Slot Filling)用前馈神经网络(Feedforward Neural Ne原创 2020-08-10 23:56:00 · 307 阅读 · 0 评论 -
笔记:ML-LHY-10 补充: GNN(Graph Neural Network)
GNN(Graph Neural Network)GNN是为了解决图(Graph)结构的数据,比如社交网络、分子结构、树比如预测一个分子结构会不会发生突变更形象的例子:预测一个人是不是凶手,当然可以使用各种特征做分类。比如实验2 classification。但是还可以考虑的一个特征是人与人之间的联系所以如何在预测一个人的类别时同时考虑和其他人关系,这就构成了图,GNN处理的就是这种结构,一种图结构首先提出3个挑战:如何利用结构和关系来帮助模型?怎么处理大型图,比如有20k节点?原创 2020-08-07 23:36:34 · 237 阅读 · 0 评论 -
笔记:ML-LHY-HW2_classification(分类、逻辑回归)
这个实验主要实现用逻辑回归来分类,数据集是KDD,根据多个维度特征判断收入是否大于5000!tar -zxvf data.tar.gz!lsdata/data/sample_submission.csvdata/test_no_label.csvdata/train.csvdata/X_testdata/X_traindata/Y_traindata data.tar.gz Untitled.ipynbLogistic Regression不是真正用来Regression,.原创 2020-08-02 19:41:59 · 298 阅读 · 0 评论 -
笔记:ML-LHY-10: Convolutional Neural Network
这节课开始讲深度学习中重要的网络:卷积神经网络(Convolutional Neural Network)CNN。理解卷积操作在神经网络中的作用,理解CNN在做什么,以及CNN的可视化。首先回顾一下及深度学习(CNN)中的卷积为什么要用CNN?局部检测卷积核有大小之分,对应感受视野,而一个卷积核一般远远小于整张图片,所以卷积后的到视野也是比较小的。而检测一个物体的特征,比如鸟有鸟嘴,其实只用局部检测就行。注意卷积是滑动窗口操作,所以会遍历整张图(只是每次的窗口比较小),上图就会识别到鸟嘴、鸟爪.原创 2020-08-01 21:10:09 · 258 阅读 · 0 评论 -
笔记:ML-LHY-11: Why Deep Learning?
本节课主要讲深度学习的深是什么含义,使用模块解释层的概念。解释为什么深度学习在图像和语音任务上表现很好。有这么一个理论:任何连续函数都可以用一层的神经网络表示对,但是效率不见得高啊,所以需要研究深度神经网络DNN!越深的网络可以得到更好的表现,因为参数更多了。但是,参数多可以纵向发展,变得更深,也能横向发展,变得更胖。那么在相同参数下,细长的网络更好,还是矮胖的模型更好呢?有人做了实验:结论就是相同参数(神经元不一样相等)情况下,层数更多的网络,效果更好。下面就是解释这个。模块化.原创 2020-07-31 00:04:29 · 224 阅读 · 0 评论 -
笔记:ML-LHY-9: Tips for Training DNN
这节课从解决2个方面问题:在training data上表现不好,没有train好,解决方面有:激活函数(主要解决梯度消失)、学习率(主要解决损失变化很大情况)在testing data上表现不好,overfitting,解决方面有:Dropout(随机丢弃神经元)、正则项、early stopping什么情况是overfitting?在training data上得到好的结果,而在testing data上得到不好的结果,才是overfitting。解决overfitting时,要确保.原创 2020-07-29 01:12:47 · 288 阅读 · 0 评论 -
笔记:ML-LHY-8: “Hello world” of deep learning(digits detection)
工具由于TensorFlow和theano(微分库)使用起来比较灵活,上手没那么快,Kears是封装他们的一个库,可以实现常用的网络,而且Kears也已经作为TensorFlow的官方API,这里先使用Kears搭建网络搭建第一个网络这个实验是一个识别数字的网络网络图:还是按照之前提到的3个步骤:定义函数集(定义网络)、如何找好的函数(定义损失)、找最好的函数(梯度下降)1定义函数集(定义网络)def my_model(): model = Sequential() #原创 2020-07-26 23:34:08 · 178 阅读 · 0 评论 -
笔记:ML-LHY-7 Backpropagation
这节课主要说了神经网络的一种求梯度方式:反向传播。原来只理解在链式求导上,而这节课阐述了反向传播实际也是在反向求一个神经网络梯度下降不过是求线性回归、逻辑回归还是神经网络都是使用梯度下降方法:)那么神经网络求梯度如下网络参数:θ={w1,w2,⋯ ,b1,b2,⋯ }\theta=\left\{w_{1}, w_{2}, \cdots, b_{1}, b_{2}, \cdots\right\}θ={w1,w2,⋯,b1,b2,⋯}梯度为:∇L(θ)=[∂L(θ)/∂w1∂L(θ)/.原创 2020-07-23 23:06:21 · 201 阅读 · 0 评论 -
笔记:ML-LHY-6 Brief Introduction of Deep Learning
Deep Learning 发展1958:感知机(线性模型,和Logistic Regression非常像,没有sigmoid)1969:发现感知机的限制1980s:多层感知机(和现在的深度学习方法没有明显区别)1986:反向传播(发现超过3层隐藏层没有帮助)1989:发现1个隐藏层就可拟合任何函数,为什么需要深度(多层隐藏层)2006:使用受限玻尔兹曼机(RBM)初始化(和多层感知机的区别就是有无使用RBM初始化然后进行GD,RBM使用图模型并且复杂,但是提升似乎不够明显),使用了RBM初始原创 2020-07-22 23:32:25 · 245 阅读 · 0 评论 -
笔记:ML-LHY-5 Logistic Regression
这节课主要说了Logistic Regression和Linear Regression关系以及为什么Logistic Regression不能用Squared ErrorLogistic Regression是一种Discriminative 方法和上节课假设高斯分布求概率的Discriminative 做比较Multi-class Classification问题从Logistic Regression的限制到Logistic Regression的连接,再到Neural Network.原创 2020-07-22 01:00:19 · 263 阅读 · 0 评论 -
笔记:ML-LHY-4 Classification(Probabilistic Generative Model)
Classification 和 Regression不建议用Regression来做Classification ,Regression函数为了得到更小的loss,会拟合右图右下角的点,导致拟合出紫色的函数。而对于分类,绿色的线更好。也就是Regression会 惩罚那些“太正确”的例子……理想的做法y=f(g(x))={1g(x)>00othery=f(g(x))=\begin{cases}1& \text{g(x)>0}\\0& \text{other}\e原创 2020-07-19 20:03:01 · 192 阅读 · 0 评论 -
笔记:ML-LHY-3 Gradient Descent
自适应学习速率 Adaptive Learning Rates一般情况,update次数ttt越多学习率η\etaη越小:ηt=η/t+1\eta^{t}=\eta / \sqrt{t+1}ηt=η/t+1这是一个和ttt相关的函数,但是这是不够的,考虑不同参数使用不同η\etaηAdagard公式:wt+1←wt−ηtσtgtw^{t+1} \leftarrow w^{t}-\frac{\eta^{t}}{\sigma^{t}} g^{t}wt+1←wt−σtηtgt那么,σt\sigm原创 2020-07-19 00:25:21 · 262 阅读 · 0 评论 -
笔记:ML-LHY-HW1_regression
因为测试集没有第10小时,又不打算在Kaggle上验证,所以修改成根据8小时预测第9个小时的PM2.5m,部分注释还是通过9预测第10 小时Homework 1: Linear Regression本次目標:由前 9 個小時的 18 個 features (包含 PM2.5)預測的 10 個小時的 PM2.5。若有任何問題,歡迎來信至助教信箱 ntu-ml-2020spring-ta@googlegroups.comLoad 'train.csv’train.csv 的資料為 12 個月中,.原创 2020-07-15 00:51:38 · 823 阅读 · 0 评论 -
笔记:ML-LHY-2 Where does the error come from?(Bias v.s. Variance)
Estimate the mean of a variable xxxassume the mean of x\mathrm{x}x is μ\muμassume the variance of xxx is σ2\sigma^{2}σ2Estimator of mean μ\muμ Sample NNN points: {x1,x2,…,xN}\left\{x^{1}, x^{2}, \ldots, x^{N}\right\}{x1,x2,…,xN}偏差Biasm=1N∑nxn≠μm=\fr原创 2020-07-14 00:16:22 · 221 阅读 · 0 评论 -
笔记:ML-LHY-1 Regression
回归问题损失函数L(w,b)=∑n=1N(y^n−(b+w⋅xn))2\mathrm{L}(w, b)=\sum_{n=1}^{N}\left(\hat{y}_{n}-\left(b+w \cdot x_{n}\right)\right)^{2}L(w,b)=n=1∑N(y^n−(b+w⋅xn))2更一般的有(W=(w1,w2,...,wi)W=(w_1,w_2,...,w_i)W=(w1,w2,...,wi)):L(W,b)=∑n=1N(y^n−(b+∑i=1Kwi⋅xn))2\ma原创 2020-07-13 00:09:35 · 297 阅读 · 0 评论